DL即插即用模块 注意力机制awesome-attention-mechanism-in-cvAwesome-Transformer-Attention即插即用deepLearning-modules-toolboxdeepLearning-modules-toolbox
文档去重算法 MinHash算法MinHash是一种用于近似计算文档集合相似度的算法。它可以有效地将文档集合的相似度评估问题转化为哈希集合之间相互作用的问题,从而可以用较小的计算代价来获得相似的结果。SimHash算法SimHash是一种用于快速计算文本指纹的算法,通过降维技术将高维的文本特征向量映射成一个低维的哈希值(指纹)。该算法在保持文本相似度信息的同时,大大降低了数据的维度。Klongsent算法Klongsent算法可能结合了MinHash的随机哈希选择和SimHash的降维技术,通过先对文
大模型训练数据库Common Crawl Common Crawl是一个非营利组织,致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。Common Crawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据,并将其上传到Common Crawl基金会的数据仓库中。该项目从2008年开始,至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据经过处理后,可以用于自然语言处理和机器学习的训练。
Stable Diffusion 详解 整体目标文本生成图片;文本+图片生成图片网络结构CLIP的文本编码器和图片生成器组成图像生成器,输入是噪声经过UNet得到图像特征,最后解码得到图像前向扩散模型直接预测图片难度比较大,所有让模型预测噪音然后输入-噪音可得到原图逆向扩散预测模型UNet改进后的UNet参考链接
Glip模型 Yolos完全使用Transformer做目标检测Detr先使用CNN提取特征然后再使用transformerDetr和Yolos共同的缺点:需要事先知道所有的类别GlipZero-shot, 目标检测的类别可以不在训练类别中目标框进行视觉编码,然后和文本进行匹配文本和视觉特征是通过Clip模型提取的,所以视觉向量和文本向量是在一个空间Glip模型的优点Glip图像和文本融合Glip损失函数Glip训练数据
SAM模型 SAM与过去分割对比根据以下Demo,我们可以发现,通过在图像中指定要分割的内容提示,SAM可以实现各种分割任务,且无需额外的训练、做到零样本泛化,即SAM学会了辨别物体、具备图像理解力、对不熟悉的图像和物体能进行零样本概括,这一通用特性使得SAM模型在有关领域的推广应用成为可能。SAM模型结构focal loss为了解决类别不均衡的问题,其中系数为0就是标准的分类loss数据引擎SAM存在的问题
多模态入门 VIT处理图像CNN VS Transformer多模态BLIP模型网络结构视觉编码器: 就是 ViT 的架构。将输入图像分割成一个个的 Patch 并将它们编码为一系列 Image Embedding,并使用额外的 [CLS] token 来表示全局的图像特征。视觉编码器不采用之前的基于目标检测器的形式,因为 ViLT 和 SimVLM 等工作已经证明了 ViT 计算更加友好。作用提取图像特征。文本编码器:就是 BERT 的架构,其中 [CLS] token 附加到文本输入的开头以总结句
Sora背后的关键技术 Sora量大核心技术Spacetime Patch(时空Patch)Patch可以理解为Sora的基本单元,就像GPT-4的基本单元是Token。Token是文字的片段,Patch则是视频的片段。GPT-4被训练以处理一串Token,并预测出下一个Token。Sora遵循相同的逻辑,可以处理一系列的Patch,并预测出序列中的下一个Patch。Sora通过Spacetime Patch将视频视为补丁序列,Sora保持了原始的宽高比和分辨率,类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至
扩散模型:Diffusion Model原理剖析 x0ϵθtϵx0xtxt−1x0xtqxt−1∣xtx0)Pxt−1∣xt)xt−1xttx0xtxttxt−1x0ααββδtz。