Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval暴露和减轻跨模态检索的虚假相关性_cross modal retrieval with querybank normalisation-CSDN博客

本文链接：https://blog.csdn.net/Mars_prime/article/details/134953755

本文聚焦图像文本检索模型，指出其常受训练数据中虚假相关性影响。为此提出对象去相关度量 ODmAP@k 衡量模型鲁棒性，还设计微调管道减轻偏差。通过对合成数据微调，使三个先进模型在检索性能和去相关度量上显著提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

模式检索方法是在数据库中搜索与查询图像最匹配的文本的首选工具，反之亦然。然而，图像文本检索模型通常学习记住训练数据中的虚假相关性，例如频繁的对象共现，而不是查看图像中预测的实际根本原因。对于图像文本检索，这体现在提及查询图像中不存在的对象的检索句子中。在这项工作中，我们引入了 ODmAP@k，一种对象去相关度量，用于衡量模型对训练数据中的虚假相关性的鲁棒性。我们使用自动图像和文本操作来控制指定测试数据中此类对象相关性的存在。此外，我们的数据合成技术用于解决由于训练数据中语义不相关的对象的虚假相关性而导致的模型偏差。我们将我们提出的管道（其中涉及对精心设计的合成数据上的图像文本检索框架进行微调）应用于三个最先进的图像文本检索模型。这导致所有三个模型在标准检索性能和对象去相关度量方面都有显着改进。该代码可在GitHub - ExplainableML/Spurious_CM_Retrieval: Official PyTorch implementation of CVPR 2023 MULA Workshop paper "Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval"获取。

1介绍

参见标题

图1：使用 CLIP 和我们提出的管道获得图像到文本的检索结果。查询图像是通过移除对象（即飞盘）来生成的。top-2 文本检索结果显示 CLIP 错误地检索到了提及飞盘的句子。检索到的句子中正确和错误的单词分别标记为绿色和红色。

快速增长的图像和文本数据库迫切需要有效地搜索数据。跨模式文本图像检索任务考虑使用查询图像从文本数据库中检索匹配文本的设置，反之亦然。例如，对于显示狗玩飞盘的查询图像，图像到文本检索模型预计会检索描述场景的句子（例如“两只狗争夺飞盘”）。

通常，图像文本检索模型是在成对的图像文本数据上进行训练的。事实证明，训练数据中的文本偏差和相关性可以转化为视觉语言模型（例如图像字幕 [30]）。在这项工作中，我们研究了训练数据中的虚假相关性（例如语义上不相关的对象的频繁共现）对其训练的跨模式检索模型的影响。我们确实在描述查询图像中不存在的对象的检索句子中观察到虚假相关性，尽管它们往往与图像中实际存在的对象有些相关，因为它们经常一起出现在数据集中。例如，当查询 没有飞盘的狗的图像时，CLIP 模型[58]尽管如此，仍然检索到句子“两只狗在雪地里共享一个飞盘”，其中包含基于常见共现的单词“飞盘”（见图1）。

人类很容易识别检索到的句子提到不相关对象的失败案例。然而，标准检索评估协议并没有专门衡量这些错误。为了量化这些，我们提出了对象去相关度量 ODmAP@k，它捕获模型对训练数据中语义不相关的对象相关性的鲁棒性。能够明确测量这种特定类型的错误是减轻该错误的第一步，因为这些错误也会影响检索任务的性能。

我们的对象去相关度量使用指定的测试集和精心设计的合成图像。为此，使用对象检测来通过修复框架删除常见的同时出现的对象[72]。然后，我们的 ODmAP@k 测量检索到的文本是否 i) 包含合成图像中出现的对象，以及 ii) 检索到的文本是否未提及任何已从原始图像中删除且不存在于合成图像中的对象。合成图像。这使我们能够量化模型是否记住了训练数据中常见的同时出现的对象，或者它是否实际上能够检索与查询图像中的对象匹配的文本。

最近，[1]识别视觉问答 (VQA) 背景下的虚假相关性，并通过使用为 VQA 任务设计的合成训练数据来减轻训练数据中虚假相关性造成的偏差。同样，我们提出了一个微调管道，可以减轻训练数据中语义不相关的对象频繁共现对训练模型的影响。虽然数据增强通常用于计算机视觉任务，但跨模式增强更具挑战性。特别是，我们的目标是在图像和文本域中制定自动增强策略，同时确保图像-文本对匹配，并且我们的综合生成的数据挑战训练数据中虚假相关性的记忆。我们提出的微调管道改进了去偏检索模型，同时在 MSCOCO 的标准评估协议中具有竞争性的性能。42]和 Flickr30k [71]数据集。

总而言之，我们做出了以下贡献：（1）我们揭示了现有跨模态检索模型的性能因训练数据中存在虚假对象相关性而受到影响。我们提出对象去相关度量 ODmAP@k 来测量这种相关偏差。2）我们提出了一个微调管道，用于减轻训练数据中虚假对象相关性的影响，该管道使用精心设计的合成数据。3）我们证明，与在原始数据集上训练的模型相比，我们的微调管道减轻了模型学习虚假性的影响，同时在标准检索评估方面具有竞争性的性能。

2相关工作

跨模态检索。 通常，跨模态检索方法使用学习的共享潜在空间将不同模态相互关联。这已经针对与文本配对的不同模式进行了研究，例如文本图像检索 [22,27,34,21,20,63,9,64,12,36,33,66,19,38,40,67,73,45,41,32,58] , 文本视频检索 [49,17 号,68,69,23,24,54,13,4,3]和文本音频检索 [56,37,44,54]。此外，[29,31,53]探索了视听文本和视听检索。在本文中，我们重点关注图像文本检索。

图文检索。 文本图像检索模型通常经过训练来对齐文本和图像模态的表示，以匹配图像文本对。几种方法提出了不同的方法来量化学习的视觉和文本嵌入之间的相似性 [22,27,34,21,20,63,9,64,12]。尤其，[21]使用三元组损失，并且[12]考虑概率公式。不同的工作系列开发了专门的网络组件，允许对跨模式的关系进行建模 [19,38,40,67,73]。与上述旨在学习更好的跨模态嵌入的工作不同，我们特别专注于解决由于训练数据中的虚假相关性而导致跨模态模型出现偏差的问题。

可以通过使用来自互联网的数百万个图像-文本对进行训练来学习图像-文本表示 [59,32]。双流CLIP中图像和文本的对比对齐 [59]并对齐 [32]框架与（嘈杂的）大规模训练数据相结合，产生了令人印象深刻的泛化能力。因此，CLIP 模型的成功 [59]影响的领域远远超出了文本图像检索，因为 CLIP 嵌入已用于各种任务，例如语义分割 [61] , 图像生成 [14]、图像视频检索 [46]，仅举几例。此外，有几项工作建立在 CLIP 的基础上，以双流方式学习强大且可泛化的视觉语言表示，从而实现高效检索。70,25,2,39,51]。在本文中，我们将我们提出的方法应用于 CLIP 和更新的 BLIP [39]在零样本图像文本检索方面优于 CLIP。

视觉语言模型中的偏差。 揭露和减轻视觉语言模型中的偏差引起了越来越多的研究兴趣。例如，最近的工作考虑了社会偏见 [5,65,75] ，注释[的缺失对应关系 11]，VQA 中的语言偏差 [55,8] , 跨模态检索中的中心性 [6]，VQA 中的多模态杂散相关性 [1]，字幕中的虚假内容 [30]，字幕中出现物体幻觉 [60]，大规模视觉语言预训练 [74]，或在独特的电子商务环境中进行跨模式检索 [47]。为了减少 VQA 中的多模态虚假相关性和语言偏差，[28,1,55,8]建议创建额外的数据来平衡训练数据集。受到 VQA 设置中数据增强成功的启发，我们设计了一种用于合成数据的设置，使我们能够识别和减轻训练图像文本检索模型中因训练数据中的虚假相关性而产生的偏差。

3对象去相关框架

在这项工作中，我们提出了一个框架，用于测量和减轻由于训练数据中的虚假对象相关性而导致的检索模型中的偏差。为了检查检索模型的虚假性，我们提出了使用合成图像测量的对象去相关度量 ODmAP@k。在3.1 节中，我们描述了生成合成图像的过程。然后我们在3.2 节中解释我们提出的 ODmAP@k 指标。在第3.3 节中，我们提供了有关微调管道的详细信息，以减轻训练数据中对象相关性的负面影响。

参见标题

图2：合成图像/文本对的管道。左图显示了合成数据的生成流程。右图显示了所提出的对象去相关度量的工作原理。句子和图像中存在和不存在的单词/对象分别为绿色和红色。

3.1合成图像生成

我们考虑一个数据集𝒟由图像文本对组成（𝒙,𝒚）ε𝒟。我们检查图像到文本检索模型是否根据查询图像中的对象检索句子。具体来说，我们考虑一个图像𝒙包含多个对象𝒪={（乙我,�我）|我=1,⋯,�}，在哪里乙我和�我引用框区域和类名称我第 - 个对象。我们合成一个额外的输入图像𝒙′其中类的对象�,𝒪�={（乙我,�我）|�我=�}，从原始图像中删除𝒙。去除与class相关的区域的目的�是检查该查询图像检索到的句子是否包含与类别相关的单词�。如果检索到的句子描述了查询图像𝒙′好吧，不提班级�，该模型对杂散具有鲁棒性。删除的区域{乙我|�我=�}由修复模型填充 [72]以避免当这些区域用常量值填充时发生数据分布偏移 [7]。下面，我们描述使用修复来合成图像的细节。

原始图像中的多个对象类。为了生成合成图像，我们选择参考图像𝒙包含来自多个类的对象，|放（{�我}1�）|≥2。我们的目标是合成可以揭示和修复模型对频繁同时出现的对象的偏见的数据。通过删除特定类别的对象（有时可能是多个类别，我们将在下面讨论），我们增加了相关类别不同时出现的图像数量。我们提出了两种合成合成图像的方案：删除单个类和删除多个类。

删除单个类。假设我们选择一个类��我们想要从图像中删除它𝒙。在这种情况下，我们只需要类的对象��被删除，而其他内容应保留在合成图像中𝒙′。让我们定义𝒞∖�与图像中的所有类一样𝒙除班级外��， IE 𝒞∖�=放（{�我}1�）-{��}，以及该类的对象的框区域��和�∖�ε𝒞∖�定义为ℬ�={乙我|�我=��}和ℬ∖�={乙我|�我=�∖�}分别。仅删除该类的对象��并将所有类的对象保存在𝒞∖�，对象区域之间的交集应该足够小，

区域（ℬ�∩ℬ∖�）区域（ℬ∖�）<�1,对全部�∖�ε𝒞∖�,

(1)

其中函数区域（⋅）表示给定参数的面积。如果等式的 LHS。1足够大，区域ℬ�将与该区域的大部分重叠ℬ∖�。如果是这种情况，在删除区域时，我们想要在合成图像中保留的对象也会被删除𝒃�。例如，在图2（左）中，我们选择“person”类作为要在参考图像中删除的类𝒙。由于“人”区域没有覆盖“马”区域，因此修复模型很好地恢复了移除的马区域，而人则被完全移除。在实际应用中，我们选择�1=0.4。

删除多个类。和之前一样，我们选择一个类��我们想从图像中删除它𝒙。然而，这次我们要删除多个类的对象，包括类��。让我们定义𝒞�+作为类集合，其中类的对象��+ε𝒞�+与该地区大部分重叠ℬ�,

区域（ℬ�∩ℬ�+）区域（ℬ�+）>�2,对全部��+ε𝒞�+,

(2)

在哪里ℬ�+={乙我|�我=��+}。当我们尝试删除该区域时ℬ�在图像中𝒙, 类的对象信息��+几乎会消失，因为该地区ℬ�+与区域高度重叠ℬ�。因此，不是仅删除该区域ℬ�，我们删除满足等式的多个类的对象区域。2 , 即{乙我|�我ε{��}∪𝒞�+}。我们选择�2=0.8。

删除区域的大小。如果删除的区域大部分覆盖图像，则修复模型将难以生成逼真的图像。因此，我们只考虑满足以下条件的合成图像：

区域（ℬ′）区域（𝒙）<�3,

(3)

在哪里ℬ′是删除的区域，即 ℬ′=ℬ�当单个类的对象被删除并且ℬ′={乙我|�我ε{��}∪𝒞�+}当多个类的对象被删除时。我们用�3=0.7。

3.2对象去相关度量 ODmAP@k

为了评估由于训练数据集中的虚假对象相关性而导致的跨模式检索模型的偏差，我们提出了对象去相关度量ODmAP@k。它衡量模型捕获查询图像和检索句子之间语义对应关系的能力。为了测量 ODmAP@k，我们使用合成测试图像𝒙′作为查询并从数据集中的文本标题库中检索句子，𝒢�={𝒚|（𝒙,𝒚）ε𝒟}。我们的目标是检查检索到的句子是否描述了该类��已被删除，因此在查询图像中不存在𝒙′。

最好的情况是我们知道匹配的句子𝒚′ε𝒢�对于合成图像𝒙′因为这意味着𝒚′不会描述该类��图像中不存在的𝒙′，我们可以观察模型是否检索到句子𝒚′。然而，手动将合成图像与匹配句子配对的成本很高。相反，我们关注图像中的对象类与句子中的名词短语之间的对应关系。假设标题𝒚由几个名词短语组成𝒩={�我|我=1,……,�}。然后，我们通过 (1) 检查句子是否正确来测量 ODmAP@k𝒚模型检索到的数据不包含任何与该类相关的名词短语��， IE 匹配（��,�我）=0对全部�我ε𝒩，以及（2）判断检索到的句子是否𝒚包含与查询图像中存在的类相关的名词短语𝒙′， IE 匹配（�∖�,�我）=1如果�∖�ε𝒞∖� 和 �我ε𝒩，其中函数匹配（⋅,⋅）当两个参数相关时为 1，否则为 0。如果条件（1）和（2）都满足，我们假设检索到的句子是正确的，然后使用 k 处的平均精度（mAP@k）来测量准确度 [52]。例如，在图2（右）中，查询图像不包含“人”类，但包含“马”和“跨栏”类。如果检索到的句子包含与“人”类相关的名词短语，例如“女人”或“马术运动员”，我们认为该检索到的句子是错误的。减少图库中没有描述查询合成图像的相关且正确的句子的可能性𝒙′好吧，我们组成画廊𝒢不仅包含来自测试数据集的句子，还包含来自训练和验证数据集的句子。另外，匹配函数的设计匹配（⋅,⋅）与第 4.1 节中描述的数据集不同。

3.3微调管道

在本节中，我们介绍一种数据增强方法𝒟′这有助于减轻数据集的虚假性，并导致模型去偏𝒟′用于微调。我们使用合成图像𝒙′使用训练数据集通过3.1 节中介绍的方法生成。形成合成数据集（𝒙′,𝒚′）ε𝒟′，我们应该做一个标题𝒚′描述合成图像𝒙′。一种解决方案是手动描述每张图像，这需要巨大的注释成本。相反，我们提出了三种使用预先存在的资源自动生成句子的方法：提示、预先训练的字幕模型和名词短语分块。

提示。语言提示最近因提高大型语言和视觉语言模型的性能而受到关注[58,57,48]。例如，CLIP [58]在 ImageNet 上取得了令人印象深刻的零样本分类性能 [15]。为了预测CLIP中的类标签，提示，例如“ [classname]的照片”，通过CLIP文本编码器形成文本嵌入并测量与图像嵌入的距离。在我们的例子中，我们使用提示来描述合成图像𝒙′。认为𝒞∖�是合成图像中存在对象的类的集合𝒙′。我们合成标题𝒚′提示中包含以下类𝒞∖�，例如 𝒚′=“人和狗的照片”什么时候𝒞∖�={'𝑝𝑒𝑟𝑠𝑜𝑛','𝑑𝑜𝑔'}。在实践中，我们使用 80 个提示并随机选择一个提示来生成标题𝒚′。

预先训练的字幕模型。轻松生成合成图像字幕的另一种方法是使用预先训练的字幕模型。我们使用 ClipCap [50]在 MSCOCO 数据集上训练的图像字幕模型[42]生成标题𝒚′。

删除名词短语块。我们可以合成标题𝒚′从原始标题中删除相关名词短语𝒚。我们假设标题𝒚由几个名词短语组成𝒩={�我|我=1,⋯,�}，以及合成图像𝒙′是通过从类中删除对象来获得的𝒞�从原始图像𝒙。与 ODmAP@k 的测量方式类似，我们选择名词短语，𝒩�⊂𝒩，与中的类相关𝒞�， IE 匹配（�∖�,�我）=1为了�∖�ε𝒞∖�和�我ε𝒩�，并删除选定的名词短语𝒩�从标题𝒚生成𝒚′。例如，名词短语𝒚=“两只狗争夺飞盘”𝒩={'两只狗','飞盘'}。删除“ frisbee ”类会给出合成标题𝒚′=“两只狗打架”。

尽管这个合成句子的过程与 ODmAP@k 中使用的方法类似，因为它们都使用与类别匹配的名词短语，但我们认为它并不是为了显式改进 ODmAP@k 而设计的。在生成过程中𝒚′，名词短语从原句中删除𝒚，因此𝒚′可能在语法上不正确。相反，ODmAP@k 基本上是从由原始句子组成的图库中检索句子𝒚，名词短语仅用于在测量虚假性时检查检索到的句子是否描述特定类别。

使用合成数据集进行训练。 使用两个数据集𝒟和𝒟′，训练数据集在图像/文本对中视觉对象和语义的共现方面变得更加平衡。这个平衡的数据集可用于减轻因记忆对象共现而产生的偏差。

4实验

	MS-COCO（5K测试集）			Flickr30k（1K 测试集）
	ODmAP@1	ODmAP@5	ODmAP@10	ODmAP@1	ODmAP@5	ODmAP@10
VSE++ [21]	56.0	49.3	45.2	59.7	53.2	49.3
VSE++ [21] + 我们的	59.8	52.8	48.3	62.5	54.6	51.5
\hdashline
夹子[58]（零射击）	58.6	51.6	47.1	59.0	52.0	48.4
夹子[58]（微调）	59.8	53.2	48.8	60.2	52.2	48.4
夹子[58] + 我们的	70.1	62.3	56.8	61.4	52.3	47.6
\hdashline BLIP [39]（零射击）	60.2	52.3	47.4	62.9	54.9	51.2
BLIP [39]（微调）	65.3	58.3	53.8	58.3	52.5	50.3
BLIP [39] + 我们的	71.6	63.7	58.5	62.5	55.4	52.4

表格1：在 MS-COCO（左）和 Flickr30k（右）数据集上评估跨模态检索的对象去相关性。我们评估了三种不同的模型，它们使用不同的架构（CNN、RNN 或基于 Transformer）和损失函数来训练模型（三元组损失、对比损失或匹配损失）。

	MS-COCO（5K测试集）						Flickr30k（1K 测试集）
	图像→文本			文本→图像			图像→文本			文本→图像
	R@1	R@5	电阻@10	R@1	R@5	电阻@10	R@1	R@5	电阻@10	R@1	R@5	电阻@10
VSE++ [21]	32.8	62.0	74.6	24.1	52.9	66.3	40.9	68.7	78.5	31.8	59.9	70.9
VSE++ [21] + 我们的	35.0	64.3	76.2	24.7	53.5	66.6	42.5	69.5	77.7	31.8	60.7	71.8
\hdashline
夹子[58]（零射击）	50.6	75.1	83.6	30.1	55.7	66.8	79.0	94.3	98.2	58.0	82.9	89.9
夹子[58]（微调）	65.5	87.4	93.3	48.6	75.7	84.7	84.2	96.1	98.1	68.6	90.4	95.1
夹子[58] + 我们的	65.6	87.2	93.1	48.4	75.7	84.4	85.0	96.5	99.0	69.9	90.9	95.4
\hdashline BLIP [39]（零射击）	71.2	90.1	94.6	55.0	79.3	86.9	85.5	97.9	99.0	77.7	94.2	96.9
BLIP [39]（微调）	78.0	93.8	97.0	61.0	84.2	90.8	96.1	99.8	99.9	85.8	97.2	98.8
BLIP [39] + 我们的	78.7	94.5	97.6	61.3	84.4	90.8	96.2	99.6	100.0	86.2	97.5	98.8

表2：MS-COCO（左）和 Flickr30k（右）数据集上的标准跨模态检索评估。我们评估了三种不同的模型，它们使用不同的架构（CNN、RNN 或基于 Transformer）和损失函数来训练模型（三元组损失、对比损失或匹配损失）。

我们在4.1 节中描述了我们的实验设置。然后，我们在4.2 节中展示了杂散性的评估结果，在4.3 节中展示了标准跨模态检索的评估结果。最后，我们在第4.4 节中提供了定性结果和对我们方法的分析。

4.1实验装置

跨模式检索数据集。我们在两个数据集上进行实验：MS-COCO [42]和 Flickr30k [71]。MS-COCO包含123,287张图像，每张图像都用5个句子手动注释。继该基准测试的现有工作之后，我们采用标准评估分割来测试一般的跨模态检索性能，使用 113,287 张图像进行训练，5,000 张图像进行验证，5,000 张图像进行测试。 Flickr30k包含来自 Flickr30k 网站的 31,783 个图像，每个图像都用 5 个句子进行注释。我们使用标准评估分割，其中包含 29,000 张用于训练的图像、1,000 张用于验证的图像和 1,000 张用于测试的图像。

比较方法。 我们采用三种跨模态检索方法进行比较：VSE++ [21]，夹子 [58]和 BLIP [39]。我们选择的比较方法涵盖不同的架构（CNN、RNN 或基于 Transformer）和损失函数（三元组损失、对比损失或匹配损失）。具体来说，我们考虑 VGG19 [62]和 Bi-GRU [10] VSE++ 和 ViT-B 中图像编码器和文本编码器的架构 [18]和 BERT [16]在 CLIP 和 BLIP 中。根据原始论文，VSE++ 使用三元组损失进行训练，CLIP 使用对比损失进行训练，BLIP 使用对比损失和匹配损失进行训练。我们将 CLIP 和 BLIP 模型的零样本应用分别称为 CLIP (zeroshot) 和 BLIP (zeroshot)，并指在原始数据集上进行微调的模型𝒟如 CLIP（微调）和 BLIP（微调）。

实施细节。我们使用原始数据集和合成数据集对比较方法进行微调，𝒟∪𝒟′，在单个 Quadro RTX 6000 GPU 上。为了微调 VSE++ 和 CLIP，我们运行 10 个时期，批量大小为 256。我们使用 Adam [35]优化器，VSE 的学习率为 1e-4，CLIP 的学习率为 2e-6，并且以每 2 个时期 0.5 的速率线性衰减学习率。为了微调 BLIP，我们运行 2 个 epoch，批量大小为 16。我们使用 AdamW [43]优化器的学习率为 1e-5，并且每半个 epoch 以 0.5 的速率线性衰减学习率。如果没有特别说明，我们默认使用去除名词短语块的方法来合成文本数据集。当通过删除名词短语块来合成文本时，我们将名词短语与要删除的类的类名进行匹配。匹配这些的机制取决于数据集。在 Flickr30k 数据集上，（图像中的对象类别，文本中的名词短语）对进行了注释。在MS-COCO数据集上，我们手动创建与类别相关的单词列表，当名词短语包含与类别相关的单词时，将名词短语和类别视为匹配对。附录中提供了手册列表。MS-COCO 和 Flickr30k 中的类数分别为 80 和 4。

综合数据集。通过第3.3 节中描述的数据增强管道，我们为 MS-COCO 训练数据集合成了 45,467 个图像/文本对，为 Flickr30k 训练数据集合成了 4,650 对。这些是通过考虑原始数据集中每个图像的 5 个可能的标题中的单个标题来获得的𝒟生成合成图像/文本对。使用全部 5 个（这导致合成图像/文本对增加了大约 5 倍）并没有产生明显的性能改进（在4.4 节中讨论）。因此，我们分别使用 45,467 个和 4,650 个合成对来微调 MS-COCO 和 Flickr30k 上的模型。

参见标题

图3：图像到文本检索的定性结果。第一（或第二）行显示当查询图像来自原始数据集（或合成数据集）时的图像到文本检索结果。对于合成数据集，我们用红色表示哪个类已从原始数据集中删除。

4.2评估对象去相关性

我们在表1中的 MS-COCO 和 Flickr30k 数据集上使用 ODmAP@K 度量来评估我们的方法和四种比较方法的对象去相关性。我们观察到我们的方法优于我们比较的其他框架。例如，CLIP (finetune) 在 MS-COCO 和 Flickr30k 数据集上的 ODmAP@1 中分别给出 59.8% 和 60.2% 的分数，而我们的方法产生 70.1% 和 61.4%，比 CLIP (finetune) 好 10.3%和1.2%。在不同的数据集和比较方法中观察到类似的趋势，但 Flickr30k 上的 BLIP 除外，其中 BLIP (zeroshot) 比我们的好 0.4%。这些结果表明，基于图像中存在的正确对象线索，我们的方法能够比比较方法获得更好的检索结果。此外，我们观察到，当基线模型的标准检索能力更好时，它往往具有更好的消除虚假相关性偏差的能力。例如，在 MS-COCO 数据集上，BLIP (finetune) 在 ODmAP@1 上的得分最高，为 65.3%，其次是 CLIP (finetune)，为 59.8%，VSE++ 为 56%。最后，我们观察到，对于大型模型，微调模型比零样本模型给出了更好的分数。当仅在原始数据集上微调零样本模型时，BLIP 的 ODmAP@1 分数从 60.2% 提高到 65.3%，CLIP 的分数从 58.6% 提高到 59.8%。

4.3评估标准跨模式检索

标准公制。我们使用 K 处的召回率 ( R@K ) 来评估跨模态检索性能，该召回率测量至少一个正确样本位于前 K 个检索项中的查询的比例。

标准检索评估的定量结果。我们使用标准检索指标评估跨模式检索结果。结果报告于表2中。我们的方法显示了不同数据集和基线模型的竞争性能。例如，在 MS-COCO 数据集上，CLIP（finetune）对于图像到文本和文本到图像 R@1 的结果分别为 65.5% 和 48.6%，而我们的方法给出了 65.6% 和 48.4%。在这两种情况下，差异均小于 0.5%。在不同的数据集和比较方法中观察到类似的趋势，我们的方法显示出有竞争力或稍微更好的结果。总的来说，这些结果表明我们的方法解决了模型中的共现偏差，而不会损害整体检索性能。

4.4分析

定性结果。图3显示了 CLIP [58]和 CLIP 在我们的增强数据集上进行了微调。第一行显示以原始图像作为查询的前 2 个检索句子。可以看出，检索到的句子描述了查询图像中不存在的对象。例如，CLIP 作为查询对第一张图像检索到的第一个句子包含单词“bat”，该单词在图像中不可见，但与其他对象（例如穿蓝色球衣的男人或棒球场）相关。这可以在图3的第二行中更清楚地观察到，其中合成图像作为查询给出。当从原始图像中删除所选类别（或多个类别）的对象以生成合成图像时，我们观察到 CLIP 仍然检索描述被删除对象的句子。例如，CLIP 针对第一张图像作为查询检索到的 top-1 句子包含单词“food”，该单词已从原始图像中删除。我们的方法检索描述可见对象的句子，而不提及查询图像中不存在的其他对象。

综合生成数据的不同方法的影响。在这里，我们探讨了综合生成文本和图像的不同方法的影响𝒟′。对于图像合成，我们考虑三种通常用于从图像中删除信息的不同方法：零填充、均值填充和模糊填充。零填充是指将被移除区域的方法ℬ�在原始图像中用零填充。平均填充和模糊填充是指以下情况下的比较方法：ℬ�填充的是平均像素值ℬ�和高斯模糊ℬ�，分别。对于文本合成，我们考虑两种额外的方法：提示和生成文本的字幕模型（如第3.3 节所述）。

不同数据合成方法的结果如表3所示。我们观察到，除了使用提示合成文本和修复图像合成之外，使用名词短语删除和修复方法生成的合成数据集似乎最适合消除模型偏差。当使用模糊、零或平均填充生成图像时，合成图像将被视为分布外，这将导致模型学习其他偏差。此外，使用提示进行文本合成在 ODmAP@1 上显示出最佳结果，但在 ODmAP@5 和 ODmAP@10 上显着下降。我们发现该模型存在中心性问题，即对于许多不同的查询，检索到的句子往往是相同的。我们推测发生这种情况是因为提示使用类似的文本格式，并且模型学习将这种特定的文本格式与合成图像相匹配。这些结果表明，需要仔细设计数据增强来消除模型的偏差。

改变原始数据和合成数据比率的影响。确定使用合成数据集提高模型性能的最佳实验配置𝒟′，我们尝试使用不同比例的合成数据来训练 COCO 数据集中的 CLIP 模型。具体来说，我们首先使用每个图像的所有 5 个原始标题生成一个合成数据集，然后|𝒟′|/|𝒟|。≈0.4。我们使用完整的原始数据集𝒟，但改变合成数据集中的子集𝒟�你乙′⊂𝒟′并同时使用𝒟和𝒟�你乙′用于训练模型。我们在图4中显示了当我们更改用于训练的合成数据量时的 R@1 和 ODmAP@1 。我们观察到 ODmAP@1 急剧增加，直到|𝒟�你乙′|/|𝒟|。≈0.1，然后缓慢增加并在比率大于0.2后达到饱和。考虑到使用每个图像的五分之一的原始标题来生成合成数据集将具有|𝒟�你乙′|/|𝒟|。≈0.08该值接近 0.1，我们得出结论，对每个图像的单个标题使用合成数据就足够了。我们还观察到，当我们改变数据集的比率时，R@1 分数变化不大。

方法	文本合成器。	图像合成器。	对象去相关评估
			ODmAP@1	ODmAP@5	ODmAP@10
𝒟	-	-	59.8	53.2	48.8
\hdashline𝒟+𝒟′	纳米颗粒去除	模糊垫。	67.9	60.9	55.8
	纳米颗粒去除	零垫。	68.9	61.0	55.7
	纳米颗粒去除	平均垫。	69.1	62.0	57.1
	船长模型	修复	61.9	55.6	51.6
	提示	修复	73.8	56.2	49.5
\cd虚线3-9	纳米颗粒去除	修复	70.1	63.7	58.5

表3：比较综合生成文本和图像的不同方法的影响𝒟′来自 CLIP 上的 MS-COCO 数据集（经过微调）的虚假性。

参见标题

图4：改变用于训练模型的原始样本和合成样本的比例的影响。

5结论

在本文中，我们研究了图像文本检索模型中由于训练数据中的虚假相关性而产生的学习偏差。我们发现现有的方法倾向于根据语义上可能不相关的线索来检索样本。为了解决这个问题，我们使用额外的合成数据来训练模型，从而消除了原始训练数据中频繁出现的对象共现。此外，我们提出了一种新的对象去相关度量 ODmAP@k，它可以衡量模型根据正确提示检索样本的效果。应用我们的方法显示了 ODmAP@k 对于各种图像文本检索模型的显着改进，而不会损害标准检索性能。

局限性和未来的工作。我们的方法侧重于图像文本检索任务的数据增强。它减轻了训练数据中对象之间的虚假相关性引起的偏差，但没有分析和解决其他偏差，例如纹理偏差 [26]。寻找并分析检索模型中的其他偏差将是一个有趣的话题。另一个有希望的未来方向是进一步探索其他跨模式检索任务的虚假性，例如文本视频检索或文本音频检索。

致谢

这项工作得到了 DFG 项目编号 276693517、BMBF FKZ: 01IS18039A、ERC (853489 - DEXIM) 和 EXC 编号 2064/1（项目编号 390727645）的支持。Jae Myung Kim 感谢欧洲学习与智能系统实验室 ( ELLIS）博士项目和国际马克斯·普朗克智能系统研究学院（IMPRS-IS）的支持。

参考

[1]Vedika Agarwal, Rakshith Shetty, and Mario Fritz.Towards causal vqa: Revealing and reducing spurious correlations by invariant and covariant semantic editing.In CVPR, 2020.
[2]Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, et al.Flamingo: a visual language model for few-shot learning.arXiv preprint arXiv:2204.14198, 2022.
[3]Yusuf Aytar, Mubarak Shah, and Jiebo Luo.Utilizing semantic word similarity measures for video retrieval.In CVPR, 2008.
[4]Max Bain, Arsha Nagrani, Gül Varol, and Andrew Zisserman.Frozen in time: A joint video and image encoder for end-to-end retrieval.In ICCV, 2021.
[5]Hugo Berg, Siobhan Mackenzie Hall, Yash Bhalgat, Wonsuk Yang, Hannah Rose Kirk, Aleksandar Shtedritski, and Max Bain.A prompt array keeps the bias away: Debiasing vision-language models with adversarial learning.arXiv preprint arXiv:2203.11933, 2022.
[6]Simion-Vlad Bogolin, Ioana Croitoru, Hailin Jin, Yang Liu, and Samuel Albanie.Cross modal retrieval with querybank normalisation.In CVPR, 2022.
[7]Chun-Hao Chang, Elliot Creager, Anna Goldenberg, and David Duvenaud.Explaining image classifiers by counterfactual generation.In ICLR, 2018.
[8]Long Chen, Xin Yan, Jun Xiao, Hanwang Zhang, Shiliang Pu, and Yueting Zhuang.Counterfactual samples synthesizing for robust visual question answering.In CVPR, 2020.
[9]Tianlang Chen, Jiajun Deng, and Jiebo Luo.Adaptive offline quintuplet loss for image-text matching.In ECCV, 2020.
[10]Kyunghyun Cho, Bart Van Merriënboer, Dzmitry Bahdanau, and Yoshua Bengio.On the properties of neural machine translation: Encoder-decoder approaches.arXiv preprint arXiv:1409.1259, 2014.
[11]Sanghyuk Chun, Wonjae Kim, Song Park, Minsuk Chang Chang, and Seong Joon Oh.Eccv caption: Correcting false negatives by collecting machine-and-human-verified image-caption associations for ms-coco.In ECCV, 2022.
[12]Sanghyuk Chun, Seong Joon Oh, Rafael Sampaio De Rezende, Yannis Kalantidis, and Diane Larlus.Probabilistic embeddings for cross-modal retrieval.In ICCV, 2021.
[13]Ioana Croitoru, Simion-Vlad Bogolin, Marius Leordeanu, Hailin Jin, Andrew Zisserman, Samuel Albanie, and Yang Liu.Teachtext: Crossmodal generalized distillation for text-video retrieval.In ICCV, 2021.
[14]Katherine Crowson, Stella Biderman, Daniel Kornis, Dashiell Stander, Eric Hallahan, Louis Castricato, and Edward Raff.Vqgan-clip: Open domain image generation and editing with natural language guidance.In ECCV, 2022.
[15]Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei.Imagenet: A large-scale hierarchical image database.In CVPR, 2009.
[16]Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova.Bert: Pre-training of deep bidirectional transformers for language understanding.2018.
[17]Jianfeng Dong, Xirong Li, and Cees GM Snoek.Predicting visual features from text for image and video caption retrieval.IEEE Transactions on Multimedia, 2018.
[18]Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al.An image is worth 16x16 words: Transformers for image recognition at scale.In iclr, 2020.
[19]Aviv Eisenschtat and Lior Wolf.Linking image and text with 2-way nets.In CVPR, 2017.
[20]Martin Engilberge, Louis Chevallier, Patrick Pérez, and Matthieu Cord.Finding beans in burgers: Deep semantic-visual embedding with localization.In CVPR, 2018.
[21]Fartash Faghri, David J Fleet, Jamie Ryan Kiros, and Sanja Fidler.Vse++: Improving visual-semantic embeddings with hard negatives.In BMVC, 2018.
[22]Andrea Frome, Greg S Corrado, Jon Shlens, Samy Bengio, Jeff Dean, Marc’Aurelio Ranzato, and Tomas Mikolov.Devise: A deep visual-semantic embedding model.In NeurIPS, 2013.
[23]Valentin Gabeur, Arsha Nagrani, Chen Sun, Karteek Alahari, and Cordelia Schmid.Masking modalities for cross-modal video retrieval.2022.
[24]Valentin Gabeur, Chen Sun, Karteek Alahari, and Cordelia Schmid.Multi-modal transformer for video retrieval.In ECCV, 2020.
[25]Yuting Gao, Jinfeng Liu, Zihan Xu, Jun Zhang, Ke Li, and Chunhua Shen.Pyramidclip: Hierarchical feature alignment for vision-language model pretraining.arXiv preprint arXiv:2204.14095, 2022.
[26]Robert Geirhos, Patricia Rubisch, Claudio Michaelis, Matthias Bethge, Felix A Wichmann, and Wieland Brendel.Imagenet-trained cnns are biased towards texture; increasing shape bias improves accuracy and robustness.In ICLR, 2019.
[27]Yunchao Gong, Liwei Wang, Micah Hodosh, Julia Hockenmaier, and Svetlana Lazebnik.Improving image-sentence embeddings using large weakly annotated photo collections.In ECCV, 2014.
[28]Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh.Making the v in vqa matter: Elevating the role of image understanding in visual question answering.In CVPR, 2017.
[29]David Harwath, Adria Recasens, Dídac Surís, Galen Chuang, Antonio Torralba, and James Glass.Jointly discovering visual objects and spoken words from raw sensory input.In ECCV, 2018.
[30]Lisa Anne Hendricks, Kaylee Burns, Kate Saenko, Trevor Darrell, and Anna Rohrbach.Women also snowboard: Overcoming bias in captioning models.In ECCV, 2018.
[31]Sungeun Hong, Woobin Im, and Hyun S Yang.Deep learning for content-based, cross-modal retrieval of videos and music.arXiv preprint arXiv:1704.06761, 2017.
[32]Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc Le, Yun-Hsuan Sung, Zhen Li, and Tom Duerig.Scaling up visual and vision-language representation learning with noisy text supervision.2021.
[33]Andrej Karpathy and Li Fei-Fei.Deep visual-semantic alignments for generating image descriptions.In CVPR, 2015.
[34]Andrej Karpathy, Armand Joulin, and Li F Fei-Fei.Deep fragment embeddings for bidirectional image sentence mapping.2014.
[35]Diederik P Kingma and Jimmy Ba.Adam: A method for stochastic optimization.arXiv preprint arXiv:1412.6980, 2014.
[36]Ryan Kiros, Ruslan Salakhutdinov, and Richard S Zemel.Unifying visual-semantic embeddings with multimodal neural language models.arXiv preprint arXiv:1411.2539, 2014.
[37]A Sophia Koepke, Andreea-Maria Oncescu, Joao Henriques, Zeynep Akata, and Samuel Albanie.Audio retrieval with natural language queries: A benchmark study.IEEE Transactions on Multimedia, 2022.
[38]Kuang-Huei Lee, Xi Chen, Gang Hua, Houdong Hu, and Xiaodong He.Stacked cross attention for image-text matching.In ECCV, 2018.
[39]Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi.Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation.In ICML, 2022.
[40]Kunpeng Li, Yulun Zhang, Kai Li, Yuanyuan Li, and Yun Fu.Visual semantic reasoning for image-text matching.In ICCV, 2019.
[41]Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, et al.Oscar: Object-semantics aligned pre-training for vision-language tasks.In ECCV, 2020.
[42]Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick.Microsoft coco: Common objects in context.In ECCV, 2014.
[43]Ilya Loshchilov and Frank Hutter.Decoupled weight decay regularization.In ICLR, 2018.
[44]Siyu Lou, Xuenan Xu, Mengyue Wu, and Kai Yu.Audio-text retrieval in context.In ICASSP, 2022.
[45]Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee.Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks.NeurIPS, 2019.
[46]Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, and Tianrui Li.Clip4clip: An empirical study of clip for end to end video clip retrieval and captioning.Neurocomputing, 2022.
[47]Haoyu Ma, Handong Zhao, Zhe Lin, Ajinkya Kale, Zhangyang Wang, Tong Yu, Jiuxiang Gu, Sunav Choudhary, and Xiaohui Xie.Ei-clip: Entity-aware interventional contrastive learning for e-commerce cross-modal retrieval.In CVPR, 2022.
[48]Sachit Menon and Carl Vondrick.Visual classification via description from large language models.In ICLR, 2023.
[49]Niluthpol Chowdhury Mithun, Juncheng Li, Florian Metze, and Amit K Roy-Chowdhury.Learning joint embedding with multimodal cues for cross-modal video-text retrieval.In ACM International Conference on Multimedia Retrieval, 2018.
[50]Ron Mokady, Amir Hertz, and Amit H Bermano.Clipcap: Clip prefix for image captioning.arXiv preprint arXiv:2111.09734, 2021.
[51]Norman Mu, Alexander Kirillov, David Wagner, and Saining Xie.Slip: Self-supervision meets language-image pre-training.In ECCV, 2022.
[52]Kevin Musgrave, Serge Belongie, and Ser-Nam Lim.A metric learning reality check.In ECCV, 2020.
[53]Arsha Nagrani, Samuel Albanie, and Andrew Zisserman.Learnable pins: Cross-modal embeddings for person identity.In ECCV, 2018.
[54]Arsha Nagrani, Paul Hongsuck Seo, Bryan Seybold, Anja Hauth, Santiago Manen, Chen Sun, and Cordelia Schmid.Learning audio-video modalities from image captions.arXiv preprint arXiv:2204.00679, 2022.
[55]Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua, and Ji-Rong Wen.Counterfactual vqa: A cause-effect look at language bias.In CVPR, 2021.
[56]Andreea-Maria Oncescu, A Koepke, Joao F Henriques, Zeynep Akata, and Samuel Albanie.Audio retrieval with natural language queries.In INTERSPEECH, 2021.
[57]Sarah Pratt, Rosanne Liu, and Ali Farhadi.What does a platypus look like? generating customized prompts for zero-shot image classification.arXiv preprint arXiv:2209.03320, 2022.
[58]Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al.Learning transferable visual models from natural language supervision.2021.
[59]Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al.Language models are unsupervised multitask learners.OpenAI blog, 1(8):9, 2019.
[60]Anna Rohrbach, Lisa Anne Hendricks, Kaylee Burns, Trevor Darrell, and Kate Saenko.Object hallucination in image captioning.In EMNLP, 2018.
[61]Gyungin Shin, Weidi Xie, and Samuel Albanie.Reco: Retrieve and co-segment for zero-shot transfer.In NeurIPS, 2022.
[62]Karen Simonyan and Andrew Zisserman.Very deep convolutional networks for large-scale image recognition.arXiv preprint arXiv:1409.1556, 2014.
[63]Yale Song and Mohammad Soleymani.Polysemous visual-semantic embedding for cross-modal retrieval.In CVPR, 2019.
[64]Christopher Thomas and Adriana Kovashka.Preserving semantic neighborhoods for robust cross-modal retrieval.In ECCV, 2020.
[65]Jialu Wang, Yang Liu, and Xin Wang.Are gender-neutral queries really gender-neutral? mitigating gender bias in image search.In EMNLP, 2021.
[66]Liwei Wang, Yin Li, and Svetlana Lazebnik.Learning deep structure-preserving image-text embeddings.In CVPR, 2016.
[67]Zihao Wang, Xihui Liu, Hongsheng Li, Lu Sheng, Junjie Yan, Xiaogang Wang, and Jing Shao.Camp: Cross-modal adaptive message passing for text-image retrieval.In ICCV, 2019.
[68]Michael Wray, Diane Larlus, Gabriela Csurka, and Dima Damen.Fine-grained action retrieval through multiple parts-of-speech embeddings.In ICCV, 2019.
[69]Ran Xu, Caiming Xiong, Wei Chen, and Jason Corso.Jointly modeling deep video and compositional text to bridge vision and language in a unified framework.In AAAI, 2015.
[70]Lewei Yao, Runhui Huang, Lu Hou, Guansong Lu, Minzhe Niu, Hang Xu, Xiaodan Liang, Zhenguo Li, Xin Jiang, and Chunjing Xu.Filip: Fine-grained interactive language-image pre-training.arXiv preprint arXiv:2111.07783, 2021.
[71]Peter Young, Alice Lai, Micah Hodosh, and Julia Hockenmaier.From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions.Transactions of the Association for Computational Linguistics, 2014.
[72]Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, and Thomas S Huang.Generative image inpainting with contextual attention.In CVPR, 2018.
[73]Qi Zhang, Zhen Lei, Zhaoxiang Zhang, and Stan Z Li.Context-aware attention network for image-text retrieval.In CVPR, 2020.
[74]Shengyu Zhang, Tan Jiang, Tan Wang, Kun Kuang, Zhou Zhao, Jianke Zhu, Jin Yu, Hongxia Yang, and Fei Wu.Devlbert: Learning deconfounded visio-linguistic representations.In ACM MM, 2020.
[75]Dora Zhao, Angelina Wang, and Olga Russakovsky.Understanding and evaluating racial biases in image captioning.In ICCV, 2021.

A. 名词短语与类名的匹配表。

当通过删除名词短语块来合成文本时，我们应该将名词短语与要删除的对象的类名相匹配。虽然此（类名、名词短语）对在 Flickr30k 数据集中进行了注释，但我们在 MS-COCO 数据集中手动列出了匹配对。如果名词短语包含与给定类名相关的单词，我们认为该名词短语与给定类名匹配。匹配表如表4所示。这些匹配对基于之前文献中完成的实现[1]，但我们添加和删除了一些对以使这些对更加相关。为了简洁起见，我们没有在表格右侧列出与类名相同的单词。

B. 合成（�'）和原来的（�）数据集。

CLIP	ODmAP@1	i2t R@1
zero-shot	58.6	50.6
��	61.5	60.5
�′	66.4	58.1
�+�′	70.1	65.6

作为|�'|<|�|（小三分之一），我们制作了一个新的数据集��⊂�在哪里|��|=|�'|进行比较。微调 CLIP�'和��分别产生了非常相似的结果（相差 2.4% i2t R@1）。考虑到从零样本到 9.9% 的改进��，数据分布�'数据分布似乎没有太大变化�即使视觉和语言的连贯性有些破碎�'。另外，相比�+�′,�′将 ODmAP@1 降低 3.7%。我们认为这是因为关于去相关对象的信息�仅通过训练的模型无法学习�′。