跨模态检索
文章平均质量分 90
qq_24876435
这个作者很懒,什么都没留下…
展开
-
VLP:A survey on vision-language pre-training
中科院自动化所最新《视觉-语言预训练》综述 转载来自公众号:机器学习算法与自然语言处理 论文标题: VLP: A Survey on Vision-Language Pre-training 论文链接:https://www.zhuanzhi.ai/paper/426bf1325e3132ff5a4aa1cc90c27f3c 01摘要 在过去几年中,预训练模型的出现将计算机视觉(CV)和自然语言处理(NLP)等单模态领域带入了一个新时代。大量工作表明它们有利于下游单模态任务,并可以避免从头开转载 2022-03-08 20:14:28 · 771 阅读 · 0 评论 -
FILIP用细粒度的后期交互获得更好的预训练效果
图本检索的Zero-Shot超过CLIP模型!FILIP用细粒度的后期交互获得更好的预训练效率。..._我爱计算机视觉-CSDN博客z 转自 我爱计算机视觉公转号 关注公众号,发现CV技术之美 无监督的大规模视觉语言预训练在各种下游任务上显示出不错的进步。现有方法通常通过每个模态的全局特征的相似性来模拟跨模态交互,或者通过视觉和文本token的交叉/自注意力来模拟细粒度交互。然而,交叉/自注意力在训练和推理方面的效率较低。 在本文中,作者引入了大规模细粒度交互式语言图像预训练(FILIP),.转载 2022-02-21 17:11:04 · 791 阅读 · 0 评论