图本检索的Zero-Shot超过CLIP模型!FILIP用细粒度的后期交互获得更好的预训练效率。...

FILIP是新的视觉语言预训练模型,通过跨模态后期交互机制实现细粒度的对齐,提高预训练效率。它在Zero-shot图像分类和图像文本检索等任务上表现优越,优于CLIP等模型。FILIP使用图像和文本token的最大相似度指导对比目标,同时避免了训练和推理的效率问题。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

 写在前面

无监督的大规模视觉语言预训练在各种下游任务上显示出不错的进步。现有方法通常通过每个模态的全局特征的相似性来模拟跨模态交互,或者通过视觉和文本token的交叉/自注意力来模拟细粒度交互。然而,交叉/自注意力在训练和推理方面的效率较低。

在本文中,作者引入了大规模细粒度交互式语言图像预训练(FILIP),通过跨模态后期交互机制实现更细粒度的对齐,该机制使用视觉和文本标记之间的token最大相似度来指导对比目标。FILIP通过仅修改对比损失,成功地利用了图像块和文本词之间的细微表达能力,同时获得了在推理时预先计算图像和文本表示形式的能力,保持了大规模训练和推理效率。

此外,作者还构建了一个新的大规模图像-文本对数据集FILIP300M,用于预训练。实验表明,FILIP在多个下游视觉语言任务(包括Zero-shot图像分类和图像文本检索)上实现了SOTA的性能。单词-patch对齐的可视化进一步表明,FILIP可以学习有意义的细粒度特征,具有良好的定位能力。

 1. 论文和代码地址

44a4eccf4f8e41efbb520aa0afd831aa.png

FILIP: Fine-grained Interactive Language-Image Pre-Training

论文地址:https://arxiv.org/abs/2111.07783

代码地址:未开源

 2. Motivation

大规模视觉语言预训练(VLP)模型,如CLIP和ALIGN最近在各种下游任务中取得了成功。他们从互联网上收集的数以百万计的图像-文本对中学习视觉和文本表示,并显示出卓越的zero-shot能力和鲁棒性。这些模型的核心技术在于通过双流模型对图像和文本进行全局对比对齐。

这种结构对于下游任务(如检索)来说是有效的,因为两种模态的编码器可以解耦,图像或文本表示可以预先计算。然而,CLIP和ALIGN仅通过每个模态的全局特征的相似性来模拟跨模态交互,缺乏捕获内部信息(如视觉对象和文本词之间的关系)的能力。

在本文中,作者为大规模VLP开发了一种简单而有效的跨模态相互作用机制。为了实现更细粒度的跨模态相互作用,以前的方法主要采用两种方法。

(1)一些工作使用预先训练的目标检测器从图像中提取感兴趣区域(ROI)特征,然后通过VLP模型将其与成对文本融合。由于预计算和存储大量ROI特征,此设计使预训练复杂化。此外,这些方法的Zero-Shot能力通常受到类的预定义数量的限制,并且它们的性能也受到检测器质量的限制。

(2) 另一些工作将两种模态的token表示或patch表示强制映射到相同的空间中,并通过交叉注意或自注意对这些细粒度交互进行建模。然而

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值