Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval

一、摘要

        本研究提出了一种名为Pic2Word的方法,用于零样本组合图像检索,通过将图片映射到单词,实现了在不需要标记的三元组数据的情况下解决多样的组合图像检索任务。

二、介绍

        组合图像检索 (CIR) 旨在使用图像和文本组成的查询来检索图像。CIR的核心是学习如何从图像和文本中组合信息。现有解决方案存在两个主要问题:一是需要大量的标记数据,通常以三元组形式出现,用于训练检索模型;二是使用标记数据训练的模型可能仅适用于特定用例,无法泛化到不同的CIR任务。

        为了应对这些挑战,本文提出了组合图像检索 (ZS-CIR)。在 ZS-CIR 中,我们的目标是构建一个执行不同 CIR 任务的单个 CIR 模型,例如对象组合属性编辑或域转换,如下图底部所示。文章建议使用大规模图像标题对和未标记图像来训练检索模型,这比大规模监督CIR数据集要便宜得多。

 

为了利用弱标记和未标记的数据集,文章提出了一个两阶段的框架来学习ZS-CIR模型。

 第一阶段:

        在图像-标题数据集上进行对比语言图像预训练(CLIP),共同训练一个双塔模型,以最大化图像和标题之间的相似性。

第二阶段:

        文章不依赖于三元组标记的训练数据,而是利用CLIP中语言编码器的语言能力,该编码器擅长于组合各种概念或属性,以生成与相应的视觉表示接近的嵌入。

详细过程:

        这一想法将一张图片映射到一个单词标记,以便语言编码器可以灵活地组合查询图像特征和文本描述。文章学习了一个轻量级的映射网络,将CLIP视觉编码器生成的图像嵌入转换为其语言编码器生成的标记嵌入。这个映射网络使用对比损失进行训练,以重构图像嵌入,这只需要未标记的图像。我们将我们的方法称为Pic2Word,并在下图中进行了说明。

贡献:

        提出了一个新任务,零样本组合图像检索(ZS-CIR),旨在解决各种 CIR 任务,而无需昂贵的三元组标记训练数据集。

        • 提出了 Pic2Word,一种用于 ZS-CIR 的新方法,只需要图像-标题和未标记的图像数据集进行训练。Pic2Word 利用了预训练的视觉-语言模型,并将输入图像转换为语言标记,以便灵活地组合图像和文本查询。

        • Pic2Word 提升了 ZS-CIR 的性能,例如,在四个 CIR 任务上相对改进了 10% 到 100%,这与使用标记训练数据的几种最近的 CIR 方法相当。

三、相关工作

        组合图像检索组合图像检索(CIR)被提出用于检索由参考图像和文本对组成的图像。当前最先进的CIR模型利用后期融合技术结合视觉和语言特征,而我们的方法不需要CIR数据集训练,但能处理各种场景。

        视觉语言基础模型。如CLIP [32]、ALIGN [21]等,在包含数亿个图像-标题对的大规模数据上预训练图像和语言编码器对。这些模型在预训练阶段接触到了描述图像概念的各种文本,因此具有处理各种任务的能力,如基于标题的图像检索、零样本分类、少样本分类、图像字幕生成和视觉问答等,而几乎不需要额外的标注成本。

        将图像表示成一个单词。几种方法尝试在视觉语言模型的预训练过程中将图像区域表示为一个标记。典型的框架包括以下步骤:(i) 使用预训练的目标检测器检测图像中的对象,(ii) 将检测到的区域和相应的句子输入到文本编码器中,(iii) 通过优化多模态目标来获得强大的视觉语言模型。其他方法旨在将一组图像转换为一个概念词标记,需要具有类别注释和标题注释的图像,并且在新概念出现时需要微调词标记。与此不同,我们的方法专注于组合图像检索,Pic2Word不需要这样的注释或在少量标记图像上微调词标记。

四、方法

        在本节中,我们介绍了我们针对ZS-CIR的方法Pic2Word。

方法总结:

        1. 利用预训练的图文模型CLIP,将图片进行视觉编码。

        2. 在给定一个冻结的预训练模型的情况下,训练一个映射网络,将视觉嵌入转换为相应的伪语言标记。通过优化网络,确保伪语言标记能够准确地表示视觉嵌入。

        3. 在测试时,预测的标记被简单地插入到一个模板中,与查询文本一起,生成的特征与候选图像进行比较。

4.1 预备知识

对比语言-图像预训练(CLIP)。CLIP 旨在找到将图像与其配对标题匹配的表示,同时分离未配对的表示。

        图像标题对 \mathcal{S}=\{(x_n,t_n)\}_{n=1}^N x\in\mathcal{X}表示图像,t\in\mathcal{T}表示标题,

        图像编码器模型 f_{\theta}:用于提取图像x的视觉表示\tilde{\boldsymbol{v}}\in\mathbb{R}^{d\times1}{:\tilde{\boldsymbol{v}}}=f_{\boldsymbol{\theta}}(\boldsymbol{x})

        词嵌入层 E_{w}:提取标题的token embeddingE_{\boldsymbol{w}}(\boldsymbol{t})

        文本编码器 f_{\phi}:用于提取文本描述的语言表示̃u = fφ(Ew(t))。

对称多类N对损失:

        对于批次B中的第i个图像xi和第j个语言描述tj,它们的特征被归一化为vi = ̃vi‖ ̃vi‖ 和uj = ̃uj‖ ̃uj ‖。

\min_{\{\boldsymbol{\theta},\boldsymbol{\phi},\boldsymbol{w}\}}\mathcal{L}_{con}=\mathcal{L}_{t2i}+\mathcal{L}_{i2t},

Lt2i:用于图像到语言描述的对比学习 

\mathcal{L}_{t2i}=-\frac1{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\log\frac{\exp(\tau\boldsymbol{u}_i^T\boldsymbol{v}_i)}{\sum_{j\in\mathcal{B}}\exp(\tau\boldsymbol{u}_i^T\boldsymbol{v}_j)}, 

Li2t:用于语言描述到图像的对比学习

\mathcal{L}_{t2i}=-\frac1{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\log\frac{\exp(\tau\boldsymbol{u}_i^T\boldsymbol{v}_i)}{\sum_{j\in\mathcal{B}}\exp(\tau\boldsymbol{u}_i^T\boldsymbol{v}_j)},

 

 

4.2 学习Pic2Word映射网络 

        Pic2Word通过对比损失训练,将输入的视觉嵌入映射到一个与CLIP语言编码器生成的嵌入兼容的伪语言标记。该伪标记能够忠实地表示图像语义,使得从通用提示加上伪标记嵌入得到的语言嵌入接近于相应的图像嵌入。

        对于未归一化的视觉嵌入 ̃v,具有参数M的映射网络fM提取一个伪语言标记嵌入s = fM( ̃v)。我们使用大约0.8M个参数构建了一个三层全连接网络作为fM。我们将s添加到提示句子“a photo of  ”的标记嵌入的末尾,得到ˆs。然后,我们将ˆs输入语言编码器fφ,以获取语言嵌入 ̃p = fφ(ˆs),希望 ̃p 能够表示输入的图像嵌入 ̃v。为了实现这一目标,我们建议最小化与映射网络相关的对比损失,即:

\min_{M}~\mathcal{L}=\mathcal{L}_{t2i}(p,v)+\mathcal{L}_{i2t}(p,v),

其中包括两个对比项:

文本到图像:

\mathcal{L}_{t2i}(p,v)=-\frac1{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\log\frac{\exp(\tau\boldsymbol{p}_i^T\boldsymbol{v}_i)}{\sum_{j\in\mathcal{B}}\exp(\tau\boldsymbol{p}_i^T\boldsymbol{v}_j)}, 

图像到文本: 

\mathcal{L}_{i2t}(\boldsymbol{p},\boldsymbol{v})=-\frac1{|\mathcal{B}|}\sum_{i\in\mathcal{B}}\operatorname{log}\frac{\exp(\tau\boldsymbol{v}_i^T\boldsymbol{p}_i)}{\sum_{j\in\mathcal{B}}\exp(\tau\boldsymbol{v}_i^T\boldsymbol{p}_j)},

训练映射网络来重建语言嵌入空间中的视觉表示。

4.3 推理 

        在推断阶段,我们的目标是组合图像和文本查询,并将其与候选图像进行比较。如上图右侧所示,想法是将一个伪标记添加到预定义的提示中,就像它是一个真实的单词标记一样。然后,将结果由文本编码器嵌入,并与候选图像的视觉特征进行比较。然后,将结果由文本编码器嵌入,并与候选图像的视觉特征进行比较我们注意到提示设计在最终性能中起着重要作用。由于我们的重点是以零样本方式研究图像嵌入和语言描述的组合,因此我们依赖简单的提示而不进行进一步调整。

        (a) 域转换。在我们想要修改查询图像的域的情况下,例如,将真实图像转换为素描风格图像,我们将域和图像组合为 [*] 的 [domain],其中 [domain] 将被替换为指定域的单词。eg: a sketch-style of [*], 而"sketch-style"表示要转换成的域。

        (b) 物体/场景组合。在物体组合中,我们的目标是检索由查询图像指定的物体和文本描述的场景/物体组成的图像。我们通过一个照片组成查询 [*]、[obj1] 和 [obj2],直到 [objn],其中 [obji] 是物体或场景的文本描述。eg:   a photo of [*],  * 表示 a dog and a tree

        (c) 句子规范。对参考图像的修改可以由一个句子给出。在这种情况下,我们只需在提示后附加一个伪标记,例如一个 [*],[text],其中 [text] 表示修改文本。eg:  a photo of [*], * 表示 a blue car

 

五、实验

        在本节中,描述了在零样本组合图像检索上评估 Pic2Word 的实验。利用四个数据集来评估模型在不同场景下的性能,包括标准CIR基准CIRR和Fashion-IQ。

5.1 实验设置

        训练细节。使用了预训练的 ViTL/14 CLIP ,该模型使用了 4 亿个图文配对数据进行预训练。我们在 Conceptual Caption 数据集 [34] 上训练映射网络,该数据集包含了 300 万张图片。映射网络由三层MLP组成,每层包含 512 个隐藏单元,激活函数为 ReLU(输出单元不使用激活函数)。我们使用了 AdamW [27] 优化器,学习率为 10^-4,权重衰减为 0.1。对比学习的批量大小为 1024。映射网络在 8 个 Tesla V100 GPU 上进行训练。我们报告了三次试验结果的平均性能。

        (a). 域转换。在这个设置中,评估了组合域信息和查询图像表示的能力。利用了ImageNet 和ImageNet-R [15],后者由具有多样化域的200个类别组成,并具有域注释。考虑到注释中的噪声,我们选择卡通、折纸、玩具和雕塑作为评估目标。

 

        (b). 对象组合。评估了在给定图像作为实例和其他由文本描述的场景或对象的情况下组合的能力。使用COCO 进行组合图像检索,使用COCO验证集(5,000张图像)进行评估。

 

 

        (c). 文本描述的场景操作。使用CIRR [26]来评估由文本描述的图像操作。从参考图像到目标图像的修改以句子形式给出。

 

        (d). 时尚属性操作。使用Fashion-IQ 来评估时尚图像的操作。时尚属性操作以句子形式给出。 

        

 

        零样本基准。我们提供了三个零样本基准,以与我们的方法进行公平比较。

  • 仅图像。这个基准通过计算目标图像特征和查询图像特征之间的相似性来检索图像。
  • 仅文本。这个基准仅使用文本特征来与目标图像计算相似性。
  • 图像和文本基准。这个基准利用图像和文本特征的平均值作为查询特征。在取平均之前,图像和文本特征都被归一化为单位L2范数。

        监督基线。为了更好地了解零样本方法的性能,将其与使用 CIR 数据集的标记三元组训练的基线进行比较。使用 CLIP ViT-L/14 作为主干实现 Combiner 模型,按照作者的代码进行。使用 CIRR 或 Fashion-IQ 的训练集训练模型;大约,CIRR 具有 28,000 个训练三元组,而 Fashion-IQ 则包括 18,000 个。

 

 

5.2 分析 

        1. 伪语言标记是否捕捉了图像信息?

        为了分析估计的标记中的信息,使用CC3M验证集的13,164张图像进行评估。具体来说,评估伪标记生成的语言嵌入是否能够检索输入图像。在前1和前5的召回率分别为99.8和100.0,表明该标记非常好地捕捉了唯一的图像特征。

        2. 对现有的组合检索数据集的见解。

        CIRR和Fashion-IQ的结果(表3和4)表明,一些目标图像可以仅通过文本进行正确检索。文中发现,参考图像可能与文本查询不相关,或者文本查询足够详细,可以搜索到目标图像。参考图像和文本之间的相对重要性是数据集特定的偏差。在图7a中研究了这种重要性,通过在计算文本t和图像特征v的平均值时变化插值权重w来产生查询嵌入,即,q = w * t + (1 − w) * v。结果表明,最优权重可能对每个数据集是唯一的,并且性能对权重参数很敏感。监督方法可以从标记的三元组中学习相对重要性,但对于零样本方法来说,学习起来比较困难。

 

        3. 与训练样本较少的监督基线相比

        图 7c 和 7d 显示了训练样本较少的监督基线 (Combiner [2]) 的性能。总体而言,如果给定少于 1,000 个三元组作为训练样本,我们的方法优于基线

        4. 训练映射网络的训练样本数量

        在图7b中,我们调查了相对于用于训练映射网络的数据量(来自CC3M)的性能。我们观察到仅使用10%的数据会降低性能,而使用50%的数据与所有数据相比性能相当。

        5. 更多定性示例。

        图8显示了使用CC3M验证数据的检索结果。我们的模型可以将图像与形容词(第二个)或地点(第三个)组合,并阅读作为图像给出的风格(底部)。

        6. 失败案例

        一个流行的应用是基于草图的图像检索[24],用户通过绘制草图来检索自然图像,如图9所示。从非自然图像领域检索图像很可能会成功(底部两个),而从草图图像检索自然图像并不容易(顶部两个)。 

 

六、结论

        在这篇论文中,作者提出了一个新颖的任务,零样本组合图像检索,并提出了第一种解决这个问题的方法。作者建议使用预训练的CLIP模型,将图像视为文本标记,以便语言编码器可以灵活地组合图像特征和文本描述。作者对四个数据集进行了全面分析,表明Pic2Word在各种不同的CIR任务中表现出很强的泛化能力,其性能与或优于几种最近需要标记训练数据的CIR方法。

  • 12
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值