Zero-shot Composed Text-Image Retrieval

一、摘要

        在本文中,我们考虑了组合图像检索 (CIR) 的问题,它旨在训练一个模型,该模型可以融合多模态信息,例如文本和图像,以准确检索与查询匹配的图像,扩展搜索能力。

二、介绍

        最近的研究表明,视觉-语言模型在大规模数据集上联合训练取得了巨大进步,我们提出了组合图像检索(CIR)任务,旨在利用图像和文本信息来检索满足用户需求的目标图像,弥补了传统图像和文本检索的不足(手动构建文本-图像三元组数据集相比于收集文本-图像对通常非常昂贵,需要大量人力)。

贡献:

        (i) 使用可扩展的流程,通过简单地利用大规模的图像-文本配对数据集(例如LAION-5B的一个子集),自动构建用于训练CIR模型的数据集。

        (ii) 引入了一种基于Transformer的自适应聚合模型TransAgg,采用简单而高效的融合机制,能够自适应地将来自不同模态的信息结合起来。

        (iii) 进行了大量的消融研究,以探究提出的数据构建流程的有效性,以及TransAgg中核心组件的有效性。

        (iv) 在公开基准测试中,在零样本情景下评估模型性能(在自动构建的数据集上进行训练,然后直接在目标下游数据集上进行推理(如CIRR和FashionIQ)),我们提出的方法在性能上要么与现有的最先进模型相媲美,要么显著优于其。 

三、相关工作

1. 图像检索

        标准的图像检索包括图像到图像检索和文本到图像检索。现有的图像检索研究主要分为两类:

        一种是使用双塔结构,依赖于特征提取器获取文本或图像特征并使用余弦相似度进行检索

        另一种是通过多模态编码器计算图像-图像或文本-图像对的相似度。然而,这些模型无法有效利用不同模态的互补信息进行细粒度查询。

2. 组合图像检索

        组合图像检索(CIR)考虑根据参考图像和相关说明检索图像问题。针对组合图像检索问题,现有研究主要关注通过融合多模态信息来生成最优的多模态表示,其中包括使用残差和门控模块、利用视觉-语言预训练Transformer以及采用CLIP模型和两阶段训练过程等方法。

四、方法

        在本节中,我们首先在第 3.1 节中制定组合图像检索的问题,然后在第 3.2 节中提供我们提出的架构的详细信息。 在第 3.3 节中,我们描述了为 CIR 任务自动构建训练集的两个想法,即 Laion-CIRTemplate 和 Laion-CIR-LLM

4.1 总体框架

        在组合图像检索问题中,训练数据由三元组(Ir, It, t)组成,其中Ir是参考图像,It是目标图像,t是与参考图像相关的文本描述。目标是训练一个模型,该模型接受参考图像和文本描述作为输入,并生成一个能够检索目标图像的组合查询,该查询可以检索到一个目标图像 It​。

Q=\Phi_{\mathrm{Trans}\mathrm{Agg}}(I_r,t)=\Phi_{\mathrm{agg}}(\Phi_{\mathrm{fuse}}(\Phi_{\mathrm{visual}}\left(I_r\right),\Phi_{\mathrm{text}}\left(t\right)))

模块包括:视觉编码器(Φvisual)、文本编码器(Φtext)、多模态融合模块(Φfuse)和聚合模块(Φagg) 。

 4.2 架构

CIR模型包括三个组件:

        1. 编码器:从视觉输入提取特征的编码器和用于从文本输入提取特征的编码器。

\mathcal{F}_{\mathrm{Vr}}=\Phi_{\mathrm{visual}}\left(I_{r}\right)\in\mathbb{R}^{|\mathcal{V}|\times d},\quad\mathcal{F}_{\mathrm{W}}=\Phi_{\mathrm{text}}\left(t\right)\in\mathbb{R}^{|\mathcal{W}|\times d}

此文中主要使用预训练的 BLIP 或 CLIP 作为我们的视觉和文本编码器 。

        2. Transformer模块:用于捕获视觉和文本之间的交互关系,提高模型对多模态信息的理解能力。

\left.\begin{bmatrix}\mathcal{F}_{\mathrm{Vr}}^{\prime},\mathcal{F}_{\mathrm{sep}}^{\prime},\mathcal{F}_{\mathrm{W}}^{\prime}\end{bmatrix}=\Phi_{\mathrm{fuse}}\left(\begin{bmatrix}\mathcal{F}_{\mathrm{Vr}},\mathcal{F}_{\mathrm{sep}},\mathcal{F}_{\mathrm{W}}\end{bmatrix}\right.\right)

        在我们的Transformer模块的输入中,除了视觉特征向量 FVr​ 和文本特征向量 FW​ 外,还整合了一个可学习的标记嵌入 Fsep​ 来区分不同的模态。 [⋅,⋅,⋅⋅,⋅,⋅] 表示特征concat,Φfuse​(⋅) 是一个两层Transformer模块,每个特征向量的输入和输出保持相同的形状。通过Transformer中的特征交互,视觉和文本特征已经得到增强.

        3. 自适应聚合模块:在这里,我们分别提取图像的全局块特征和文本的全局标记特征,然后将它们串联在一起,通过一个MLP模块转换为融合特征 FU​∈Rd。接着,我们应用一个线性层将 FU​ 投影为权重参数w1​,w2​,w3​,这些参数用作图像全局特征FGVr​、FU​ 和文本全局 特征FGW​ 的倍权重。最终的图像-文本表示 Q 计算如下:

Q=w_1*\mathcal{F}_\mathrm{Vr}^\mathrm{G}+w_2*\mathcal{F}_\mathrm{U}+w_3*\mathcal{F}_\mathrm{W}^\mathrm{G}

4.3 训练目标 

        模型训练中,使用基于批处理的分类(BBC)损失。给定批处理大小为B,第i个查询对(Ii r, ti)应该与其正例目标Ii t接近,并且与负例实例远离。

\mathcal{L}=-\frac1B\sum_{i=1}^B\log\left[\frac{\exp\left[\kappa\left(Q^i,\mathcal{F}_{\mathrm{Vt}}^i\right)/\tau\right]}{\sum_{j=1}^B\exp\left[\kappa\left(Q^i,\mathcal{F}_{\mathrm{Vt}}^j\right)/\tau\right]}\right]

其中,τ=0.01 是温度参数,κ(⋅,⋅) 表示余弦相似度,Qi​ 由上述方程计算得出,即组合查询,\mathcal{F}_\mathrm{Vt}^i=\Phi_\mathrm{visual}(I_t^i)是该查询的目标图像的表示。 

4.4 数据集构建 

        为了有效训练组合图像检索模型,需要大量的三元组数据,收集和标注CIR数据集可能会耗费大量时间和金钱,因此描述了一个自动流程来构建适用于CIR训练的数据集。

4.4.1 相对字幕生成

        1. 基于语言模板的生成:根据预定义的模板和规则生成相对描述,和目标图像描述。定义了一个模板,即"用{实体B}替换{实体A}",其中实体A被其他相似的名词短语替换。

        2. 基于大型语言模型的生成:给定参考图像的图片说明,使用ChatGPT同时生成相对描述和目标图像的描述。

   

4.4.2  目标图像检索

        使用基于模板或LLM的方法生成目标图像描述后,我们利用sentence-transfomer模型提取特征,并通过余弦相似度在目标图像描述和 Laion-COCO 图像标题之间执行纯文本检索,以构建三元组样本(包括参考图像、相对描述和目标图像)。

 

五. 实验

5.1 训练数据集

        分别采用不同的方法,构建了训练数据集Laion-CIR-Template(16k)Laion-CIR-LLM(16k),并结合两种方法构建了32K数据集Laion-CIR-Combined

5.2 评估数据集

        CIRR FashionIQ 。在本文中,我们考虑了零样本评估,我们只在自动构建的训练集上进行训练,并直接在目标基准数据集上进行评估。

5.3 评估指标

        采用检索中的标准指标,即Recall@K,它表示在前K个列表中包含目标图像的百分比。对于CIRR,我们还报告RecallSubset@K指标,它仅考虑查询子集中的图像。

5.4 消融研究

5.4.1 预训练主干网络和微调

        使用BLIP模型作为视觉和文本编码器在Laion-CIRTemplate数据集上获得最佳性能,并通过微调更多参数可以进一步提升性能。(BLIP模型是一种视觉和文本编码器,用于将图像和文本转换为高维表示,以便计算它们之间的相似性或进行其他任务)

 

 5.4.2 各模块的有效性

        对Transformer融合和自适应聚合进行了消融研究,以及不同的数据集构建方式,即Laion-CIRTemplate和Laion-CIR-LLM。

 

5.4.3 与最先进方法比较

 

5.4.4 数据集构建的失败案例 

      数据集构建流程仍存在一些限制,例如,如图3中的第1行和第2行所示,使用句子转换器计算句子相似性时,可能无法很好地捕捉句子之间的关键信息,导致未能检索到正确的目标图像。此外,我们使用Laion-COCO作为我们的数据语料库,其中的描述是自动生成的,因此可能不准确。        

 5.4.5 CIR的定性结果

        在图 4 中,展示了组合图像检索的定性结果,它仅在自动构建的数据集上进行了训练,而无需对下游任务进行微调。 

六、结论

        在本文中,提出了一种基于检索的流程,用于自动构建 CIR 数据集,利用互联网上易获取的图像-标题数据。基于模板和大型语言模型获得了两个不同的 CIR 数据集。此外,文章提出了 TransAgg(基于 Transformer 的自适应聚合模型),可以有效地整合不同模态的信息。大量实验证明,文章方法在两个公共基准测试上达到了与现有最先进模型(SOTA)相当或显著优越的表现,文中零样本结果有时与全监督方法可比。 

  • 20
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值