图本检索的Zero-Shot超过CLIP模型！FILIP用细粒度的后期交互获得更好的预训练效率。...-CSDN博客

本文链接：https://blog.csdn.net/moxibingdao/article/details/122356272

FILIP是新的视觉语言预训练模型，通过跨模态后期交互机制实现细粒度的对齐，提高预训练效率。它在Zero-shot图像分类和图像文本检索等任务上表现优越，优于CLIP等模型。FILIP使用图像和文本token的最大相似度指导对比目标，同时避免了训练和推理的效率问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号，发现CV技术之美

▊ 写在前面

无监督的大规模视觉语言预训练在各种下游任务上显示出不错的进步。现有方法通常通过每个模态的全局特征的相似性来模拟跨模态交互，或者通过视觉和文本token的交叉/自注意力来模拟细粒度交互。然而，交叉/自注意力在训练和推理方面的效率较低。

在本文中，作者引入了大规模细粒度交互式语言图像预训练（FILIP），通过跨模态后期交互机制实现更细粒度的对齐，该机制使用视觉和文本标记之间的token最大相似度来指导对比目标。FILIP通过仅修改对比损失，成功地利用了图像块和文本词之间的细微表达能力，同时获得了在推理时预先计算图像和文本表示形式的能力，保持了大规模训练和推理效率。

此外，作者还构建了一个新的大规模图像-文本对数据集FILIP300M，用于预训练。实验表明，FILIP在多个下游视觉语言任务（包括Zero-shot图像分类和图像文本检索）上实现了SOTA的性能。单词-patch对齐的可视化进一步表明，FILIP可以学习有意义的细粒度特征，具有良好的定位能力。

▊ 1. 论文和代码地址