多模态
文章平均质量分 92
深度菜鸟
这个作者很懒,什么都没留下…
展开
-
GLIP论文理解
GLIP(是一个可扩展的(generalizable)目标检测模型(其实准确来说应该表述为短语定位模型,本句在这里将"目标检测"和"短语定位"任务混为一谈)在文章开头先解释一下GLIP论文中用到的一些"黑话"generalizable(可泛化):侧重于描述模型,强调模型学到的特征能够泛化到新的情境。scalable(可扩展):关注系统、算法、数据集的可扩展性,确保算法在面对更大规模、更复杂的情况时性能能够保持或提高。原创 2024-02-19 09:34:43 · 795 阅读 · 1 评论 -
CLIP(Contrastive Language–Image Pre-training)论文理解
CLIP () 使用的方法非常简单,主要分为2个部分:more使用图像和文本进行对比学习预训练组件文本编码器:Transformer图像编码器:ResNet or Vision Transformer对比学习目标:通过最大化正样本对(图像和文本描述)的相似性,最小化负样本对(图像和不相关文本描述)的相似性来学习图像和文本的共享表示损失函数(InfoNCE loss):论文MoCo提出,我们可以把对比学习看成是一个字典查询的任务,即训练一个编码器从而去做字典查询的任务。原创 2024-01-31 20:23:12 · 699 阅读 · 0 评论