一、摘要
本研究提出了一种名为Pic2Word的方法,用于零样本组合图像检索,通过将图片映射到单词,实现了在不需要标记的三元组数据的情况下解决多样的组合图像检索任务。
二、介绍
组合图像检索 (CIR) 旨在使用图像和文本组成的查询来检索图像。CIR的核心是学习如何从图像和文本中组合信息。现有解决方案存在两个主要问题:一是需要大量的标记数据,通常以三元组形式出现,用于训练检索模型;二是使用标记数据训练的模型可能仅适用于特定用例,无法泛化到不同的CIR任务。
为了应对这些挑战,本文提出了组合图像检索 (ZS-CIR)。在 ZS-CIR 中,我们的目标是构建一个执行不同 CIR 任务的单个 CIR 模型,例如对象组合、属性编辑或域转换,如下图底部所示。文章建议使用大规模图像标题对和未标记图像来训练检索模型,这比大规模监督CIR数据集要便宜得多。
为了利用弱标记和未标记的数据集,文章提出了一个两阶段的框架来学习ZS-CIR模型。
第一阶段:
在图像-标题数据集上进行对比语言图像预训练(CLIP),共同训练一个双塔模型,以最大化图像和标题之间的相似性。
第二阶段:
文章不依赖于三元组标记的训练数据,而是利用CLIP中语言编码器的语言能力,该编码器擅长于组合各种概念或属性,以生成与相应的视觉表示接近的嵌入。
详细过程:
这一想法将一张图片映射到一个单词标记,以便语言编码器可以灵活地组合查询图像特征和文本描述。文章学习了一个轻量级的映射网络,将CLIP视觉编码器生成的图像嵌入转换为其语言编码器生成的标记嵌入。这个映射网络使用对比损失进行训练,以重构图像嵌入,这只需要未标记的图像。我们将我们的方法称为Pic2Word,并在下图中进行了说明。
贡献:
• 提出了一个新任务,零样本组合图像检索(ZS-CIR),旨在解决各种 CIR 任务,而无需昂贵的三元组标记训练数据集。
• 提出了 Pic2Word,一种用于 ZS-CIR 的新方法,只需要图像-标题和未标记的图像数据集进行训练。Pic2Word 利用了预训练的视觉-语言模型,并将输入图像转换为语言标记,以便灵活地组合图像和文本查询。
• Pic2Word 提升了 ZS-CIR 的性能,例如,在四个 CIR 任务上相对改进了 10% 到 100%,这与使用标记训练数据的几种最近的 CIR 方法相当。
三、相关工作
组合图像检索。组合图像检索(CIR)被提出用于检索由参考图像和文本对组成的图像。当前最先进的CIR模型利用后期融合技术结合视觉和语言特征,而我们的方法不需要CIR数据集训练,但能处理各种场景。
视觉语言基础模型。如CLIP [32]、ALIGN [21]等,在包含数亿个图像-标题对的大规模数据上预训练图像和语言编码器对。这些模型在预训练阶段接触到了描述图像概念的各种文本,因此具有处理各种任务的能力,如基于标题的图像检索、零样本分类、少样本分类、图像字幕生成和视觉问答等,而几乎不需要额外的标注成本。
将图像表示成一个单词。几种方法尝试在视觉语言模型的预训练过程中将图像区域表示为一个标记。典型的框架包括以下步骤:(i) 使用预训练的目标检测器检测图像中的对象,(ii) 将检