Let there be a clock on the beach: Reducing Object Hallucination in Image Captioning-CSDN博客

本文链接：https://blog.csdn.net/mars_prime/article/details/134935535

本文聚焦于减少图像字幕中的物体幻觉问题。提出三种简单有效的句子训练增强方法，无需新训练数据或增加模型大小。通过调整字幕模型、简化和扩充句子等操作，改变对象共现统计，减少模型对语言先验和视觉特征的依赖，实验证明可显著减少对象偏差。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

用缺失或不存在的对象来解释图像被称为图像字幕中的对象偏差（幻觉）。这种行为在最先进的字幕模型中非常常见，这是人类所不希望的。为了减少字幕中的物体幻觉，我们提出了三种简单而有效的句子训练增强方法，不需要新的训练数据或增加模型大小。通过广泛的分析，我们表明所提出的方法可以显着减少我们的模型对幻觉指标的对象偏差。此外，我们通过实验证明我们的方法减少了对视觉特征的依赖。我们所有的代码、配置文件和模型权重均可在线获取1。

1介绍

在他的开创性著作中 [24]，库恩表示，异常现象的发现通常会带来新的范式。机器学习 (ML) 早期依赖于手工编码/制作的功能（简单、优雅的功能更受青睐）来创建模型。然而，有一个异常现象比手工制作的功能表现得更好，它导致了一种范式转变，称为数据的不合理有效性 [16]，他们只是建议“遵循数据”。追随数据只是范式变革的第一步，第二步是数据量。MSCOCO等大数据集的引入 [26]和 ImageNet [10]结合当前计算技术的出现，深度学习取得了重大成就 [25]。尽管如此，仍然有许多关于深度模型所利用的各种失败案例和捷径的著作发表了 [14]。这些快捷方式尤其可以在视觉和语言任务中找到，例如以物体幻觉形式的图像字幕和视觉问答（VQA） [33]，语言优先 [15]，关注背景 [5]，虚假相关性 [46] , 行动偏见 [46]和性别偏见 [17 号]。

参见标题

UD：一个拿着冲浪板在海滩上的男人

AoA：一名男子站在海滩上，手里拿着飞盘

我们的（UD）：一个男人站在靠近大海的海滩上

我们的（AoA）：一个拿着时钟站在海滩上的男人

图1：众所周知，图像字幕的标准方法会对经常同时出现的物体产生幻觉，例如海滩、飞盘或冲浪板。我们的方法能够通过标准化共现统计来减少对象偏差，从而减少幻觉对象并正确预测较低概率的对象。

由于多种原因，解决图像字幕中的对象偏差问题非常重要。首先也是最重要的是，在无法正确识别物体的情况下描述图像对于人类来说是不可取的。33]。对于视障人士来说尤其如此，他们更喜欢正确性而不是覆盖范围 [29]出于显而易见的原因。其次，即使字幕模型的结果在自动评估指标中被推向极限，但这并不意味着对象偏差/幻觉的减少 [33]。最后，解决物体幻觉对于我们模型的泛化能力至关重要，使它们能够更容易地适应看不见的领域。

显然，幻觉无法通过从同一个有偏见的世界收集更多数据来纠正。共现模式不会改变或者会被放大。换句话说，这些偏差似乎不会随着数据集的扩大和模型大小的增加而消失 [14]。

在这项工作中，我们证明可以在不需要更多数据或增加模型大小的情况下减少对象偏差，同时不影响模型的计算复杂性和性能。更具体地说，我们通过提供对象标签作为附加输入来调整任何现有的字幕模型，并采用简单而有效的采样策略，其中包括人为地更改字幕中的对象，例如将句子“一个人正在玩狗”修改为“叉子正在和狗玩耍”。随着句子的变化，我们还以相应的方式替换提供给模型的对象标签。

原因很简单，可以追溯到共现统计。通过改变对象的共现统计，我们减少了模型对语言先验和视觉特征的依赖，如图1所示。我们在这项工作中的贡献如下：

•

一种简单的方法，可应用于任何字幕模型以减少对象偏差，无需额外的训练数据或增加模型参数。
•

我们改进了幻觉指标 CHAIR 的结果 [33]同时在图像字幕评估指标上获得比我们的基线模型更高的提升。
•

我们证明我们的技术适用于两种常用的损失函数：交叉熵和 REINFORCE [32]算法。

2相关工作

随着编码器-解码器框架的进步 [8]注意 [4]在机器翻译中，自动图像字幕使用类似的架构开始发展 [39,45]。字幕的下一个进步来自于使用预训练的对象检测器作为特征提取器，具有两种类型的注意力，即自上而下和自下而上的注意力 [3]。同时，还证明了使用 REINFORCE 算法训练字幕模型 [42]，直接优化评估指标，比使用交叉熵损失有好处 [32]。最近，随着变形金刚的呈现 [36]，一个新的模型系列 [19]取得了最先进的成果。图像字幕最近转向了新的方向，例如生成不同的描述 [38,12,44]通过允许接地和可控性 [9,47,7]同时使用各种上下文信息 [6,35]。

然而，尽管经典字幕指标不断改进，但仍有许多偏差被利用，从而在模型中产生偏差。为了补偿已知模型在特定设置中更喜欢某种性别而不是其他性别的性别偏见， [17 号]建议用置信度/外观损失来调整原始的交叉熵损失。字幕中的另一个偏见与动作偏见有关，其中某些动作比 [描述的其他动作更受欢迎。46]他们运用因果关系 [31]进入字幕模型。更具体地说，他们提出的方法使用 4 层 LSTM，并在 ConceptNet 上运行预期平均值 [27]标题中生成的每个单词的概念，这会带来严重的计算过载。相似地，[1]使用生成模型修改图像，以减少视觉问答任务中虚假相关性的影响。

[33]表明当代字幕模型容易出现对象偏差。此外，他们描述了评估指标仅仅测量真实情况和生成的标题之间的相似性，而不是捕获图像相关性。因此，他们提出了两个指标来量化物体幻觉的程度，即 CHAIRs 和 CHAIRi。CHAIR 指标评估我们的模型在句子级别（因此为 CHAIR）和对象级别（因此为 CHAIRi）产生了多少错误的对象标签。令人惊讶的是，物体幻觉问题并没有得到应有的重视。在这项工作中，我们尝试在不扩大模型大小或使用额外数据的情况下减少对象偏差。我们遵循一个简单的策略来做到这一点，该策略可以与任何接受对象检测特征作为输入的模型一起使用。

参见标题

图2：当前大多数图像字幕模型都利用从对象检测网络中提取的对象级视觉特征（左图）。在本文中，我们提出了一个简单的调整，其中还提供对象标签作为输入（中心图）。标签嵌入与视觉特征的串联使我们能够在对象标签和模型监督（标题）上采用数据增强技术来修复模型中的对象偏差（右图）。

3方法

如前所述，我们试图减少现有模型中固有存在的对象偏差。对象偏差的主要原因是训练数据集图像中特定对象类别的系统共现，因此我们假设使共现统计矩阵更加均匀将使我们的模型产生更少的幻觉。因此，我们设计了一系列数据增强技术来实现这一目标。

3.1对任何字幕模型的小调整

我们首先对图像字幕中的模型进行简要和概括的介绍。引入自上而下自下而上的注意力之后 [3]，大多数现有的图像字幕模型都利用从对象检测网络中提取的对象级视觉特征。更正式地说，给定一个图像我，一组边界框特征通过将其传递给预训练的对象检测器来获得。这些功能与注意力机制相结合，稍后将被输入到语言模型中（ℒ) 生成一个句子其中最常见的变体ℒ是变形金刚 [36]和 LSTM [18]：

从图2的左侧可以更清楚地看到这一表述。

我们对上述公式的调整是简单地将图像中找到的对象标签与边界框特征连接起来（图 2的中间部分）。更正式地说，我们扩展了边界框特征集�到�～={�1,�2,……,��,我1,我2,……,我我}在哪里我我是个我��嵌入对象标签。连接后，我们替换�和�￣并遵循公式 1中概述的完全相同的训练程序。

标签嵌入与视觉特征的串联使我们能够使用数据增强技术。由于我们使用标签作为模型的输入，因此我们可以根据需要直接更改它们。在以下部分中，我们将描述标签增强背后的策略。

3.2句子简化

我们所有数据增强方法的第一步是句子简化。通过句子简化，我们指的是删除场景中对象的标题中使用的形容词。例如，我们想将句子“一只小黑猫坐在一张旧桌子上”修改为“一只猫坐在桌子上”。原因是双重的，其中之一是有些形容词不能适用于所有物体，例如“小”和“黑”可以用于猫，但当猫被人为地用另一个物体改变时，这将是不正确的例如大象或香蕉。其次，以这种方式简化句子提供了句子的另一种变体，充当字幕模型的正则化器类型，以利用数据集中现有的语言。

为了实现这个目标，我们首先用词性（POS）分析每个标题，并找到与句子相对应的所有名词短语。然而，这些名词短语不一定必须指图像中找到的对象。这就是为什么，我们利用数据集中存在的对象类的同义词列表（例如 MSCOCO 中的 80 个对象）并过滤包含对象名称或其同义词的名词短语。最后一步，我们用短语的词根替换整个名词短语。

3.3句子的扩充

简化句子后，我们采用不同的采样策略来选择要替换的对象。更正式地说，给定一个包含对象的句子哦我和哦�，我们对对象进行采样哦�取代哦�根据分布磷（哦�|哦我）。现在，我们详细解释我们使用哪些分布来扩充句子。

3.3.1均匀采样

均匀采样的选择受到我们关于创建均匀对象标签共现矩阵的假设的启发。以最简单的形式，我们利用均匀分布进行采样，其中

换句话说，在忽略数据集统计数据的情况下，每个对象都有相同的采样概率。接下来的两个分布考虑了丢弃的数据集统计信息。

3.3.2逆多项式采样

对于任何给定的数据集，人们可以获得的最容易获得的统计数据是共现矩阵中号ε右氮×氮在哪里中号我�指对象的共现统计哦我和哦�和氮是对象的数量

。我们定义了一个新的分布，它考虑了称为逆多项式的数据集统计数据，利用中号在哪里

通过逆多项式，我们对对象进行采样哦�如果对象的出现率较低哦我。另一方面，如果对象哦�和哦我在数据集中频繁同时出现，则选择的概率哦�会相当低。

3.3.3更新共现矩阵

尽管逆多项式采样增加了对低频对进行采样的机会，但它防止了为低频对创建新的偏差。为了解决这个问题，我们决定跟踪矩阵中号并根据采样对不断更新。更正式地，分布定义为：

通过在训练中跟踪共现统计数据，可以减少模型找到捷径并允许更快收敛到统一模型的前景中号。

4实验

4.1数据集和基线模型

斯科科： [26]。我们使用最常用的字幕数据集 MSCOCO [26]。我们遵循有关使用“Karpathy”分割的文献 [21]。该分割包含 113,287 个训练图像，每个图像有 5 个标题，以及 5k 个用于验证和测试的图像。

评估指标：为了评估字幕质量，我们报告了标准的自动评估指标；苹果酒 [37] , BLEU [30]、流星 [11]，香料 [2]。此外，我们还包括新引入的指标 SPICE-U [41]这是 SPICE 的一个变体，它奖励句子的独特性。最后，我们提供幻觉指标 CHAIRs [33]和 CHAIRi [33]分别用于句子和宾语级别。在 CHAIR 指标中，越低越好。

上下（UD）： [3]。自下而上和自上而下的注意力模型利用了在 VG 上预训练的目标检测器提出的显着图像区域 [23]，然后通过采用根据语言模型的隐藏状态计算的注意机制来对区域进行加权。

迎角： [19]。Attention注意力模型扩展了传统的Transformers [36]模型通过包含另一个注意力来确定注意力结果和查询之间的相关性。当我们使用给定的对象标签作为输入进行训练时，我们将这些模型称为 UD-L 和 AoA-L。

4.2实施细节

我们所有的模型都是在公开可用的代码2之上实现的。我们使用亚当 [22]优化器的批量大小为 10，UpDown 的学习率为 0.0002 和 0.0005 [3]和迎角 [19]，分别。两个模型都训练了 30 个 epoch，我们根据 Cider-D 上验证集的最佳得分保留了最佳模型 [37]。我们生成没有束搜索的句子，并且两个模型都使用 [提供的视觉特征3]。为了嵌入对象标签，我们利用 FastText [20]。

表格1：Karpathy 测试分割上的图像字幕模型结果。* 数字由 [提供33]波束搜索 5。B-4：Bleu-4，M：Meteor，C：苹果酒，S：Spice，S：Spice-U，CHs：CHAIRs，CHi：CHAIRi，UD：UpDown，AoA：注意上的注意， Uni：均匀采样，Inv：逆多项式采样，Occ：共现更新。在 CHAIR 指标中，越低越好。

	交叉熵							自我批评
模型	B-4 ↑	中号 ↑	C ↑	S ↑	CH ↓	气 ↓	苏 ↑	B-4 ↑	中号 ↑	C ↑	S ↑	CH ↓	气 ↓	苏 ↑
1.1 UD-VC [40]	39.5	29	130.5	-	\列颜色gray10.3	\列颜色gray6.5	-	-	-	-	-	\columncolor灰色-	\columncolor灰色-	-
1.2迎角-VC [40]	39.5	29.3	131.6	-	\columncolor grey8.8	\列颜色gray5.5	-	-	-	-	-	\columncolor灰色-	\columncolor灰色-	-
1.3 UD-DIC [46]	38.7	28.4	128.2	21.9	\列颜色gray10.2	\列颜色gray6.7	-	-	-	-	-	\columncolor灰色-	\columncolor灰色-	-
1.4 UD-MMI [41]	22.77	28.84	106.42	20.72	\列颜色gray7.8	\columncolor灰色-	25.27	-	-	-	-	\columncolor灰色-	\columncolor灰色-	-
1.5迎角-MMI [41]	27.18	30.39	128.15	22.81	\列颜色gray9.28	\columncolor灰色-	26.53	-	-	-	-	\columncolor灰色-	\columncolor灰色-	-
1.6光盘盖 [41]	21.58	27.42	110.9	20.27	\列颜色gray10.84	\columncolor灰色-	24.52	-	-	-	-	\columncolor灰色-	\columncolor灰色-	-
1.7 LRCN [13] *	-	23.9	90.8	17.0	\列颜色gray17.7	\列颜色gray12.6	-	-	23.5	93.0	16.9	\列颜色gray17.7	\列颜色gray12.9	-
1.8 FC [32] *	-	24.9	95.8	17.9	\列颜色gray15.4	\columncolor灰色11	-	-	25	103.9	18.4	\columncolor grey14.4	\columncolor grey10.1	-
1.9 Att2In [32] *	-	25.8	102	18.9	\列颜色gray10.8	\列颜色gray7.9	-	-	25.7	106.7	19	\列颜色gray12.2	\columncolor grey8.4	-
1.10 UD [3] *	-	27.1	113.7	20.4	\columncolor grey8.3	\列颜色gray5.9	-	-	27.7	120.6	21.4	\列颜色gray10.4	\列颜色gray6.9	-
1.11 NBT [28] *	-	26.2	105.1	19.4	\列颜色gray7.4	\列颜色gray5.4	-	-	-	-	-	\columncolor灰色-	\columncolor灰色-	-
1.12生成式生成网络 [34] *	-	25.7	100.4	18.7	\列颜色gray10.7	\列颜色gray7.7	-	-	-	-	-	\columncolor灰色-	\columncolor灰色-	-
1.13 UD	33.2	26.9	108.4	20.0	\columncolor grey10.1	\列颜色gray6.9	24.05	36.5	27.8	121.5	21.3	\列颜色gray11.9	\列颜色gray7.7	23.85
1.14 UD-L	34.4	27.3	112.7	20.7	\列颜色gray6.4	\ columncolorgray4.1	24.68	37.7	28.6	124.7	22.1	\列颜色gray5.9	\列颜色gray3.7	25.41
1.15 UD-L + 单向	34.2	27.2	112.4	20.6	\列颜色gray6.3	\列颜色gray4.0	24.61	37.6	28.7	125.2	22.3	\columncolor灰色5.8	\columncolor灰色3.7	25.54
1.16 UD-L + Inv	34.3	27.3	112.6	20.7	\列颜色gray6.2	\列颜色gray4.0	24.05	37.8	28.7	125.4	22.3	\列颜色gray5.9	\列颜色gray3.8	25.60
1.17 UD-L + Occ	33.9	27.0	110.7	20.3	\columncolor灰色5.9	\columncolor灰色3.8	24.52	37.7	28.7	125.2	22.2	\columncolor灰色5.8	\columncolor灰色3.7	25.58
1.18迎角	33.7	27.4	111.0	20.6	\columncolor grey9.1	\列颜色gray6.2	24.57	38.8	28.7	127.2	22.4	\列颜色gray9.6	\列颜色gray6.1	24.68
1.19迎角-L	33.1	27.0	110.0	20.3	\列颜色gray7.1	\列颜色gray4.4	24.30	35.9	28.0	119.6	21.7	\列颜色gray7.8	\列颜色gray4.8	24.81
1.20迎角-L + Uni	34.1	27.2	111.4	20.5	\columncolor灰色6.2	\columncolor灰色3.9	24.58	35.1	27.8	117.7	21.4	\columncolor grey7.3	\列颜色gray4.5	24.58
1.21迎角-L + 反转	34.3	27.3	112.0	20.6	\列颜色gray6.5	\ columncolorgray4.1	24.93	35.7	28.0	119.2	21.8	\列颜色gray7.5	\列颜色gray4.6	24.93
1.22迎角-L + Occ	34.3	27.1	111.3	20.5	\columncolor灰色6.2	\columncolor灰色3.9	24.57	34.5	27.5	116.0	21.1	\columncolor灰色7.0	\columncolor灰色4.3	24.20

我们使用文献中常用的训练损失，即交叉熵和 REINFORCE [32]。对于我们模型的每个变体，我们根据抛硬币随机选择使用原始句子或增强句子作为基本事实。所有通过我们的增强训练的模型都经过微调，以允许更快的收敛，并看看我们是否可以减少模型的“学习”偏差。最后，我们始终使用地面实况对象标签作为模型的输入，并使用 Detectron2 的 X101-FPN [43]库获取对象标签以进行测试。超参数所需的所有代码、模型权重和配置文件将在接受后发布。

4.3与现有技术的比较

我们在表 1中展示了我们的模型的结果以及最先进的模型结果。首先也是最重要的，UD-VC 和 AoA-VC（行表 1 .表 1，表 1 .表 1）使用从最先进的对象检测器中提取的特征，同时与 UpDown 提供的原始特征相连接 [3]，IE。他们在模型训练中使用 2 FasterRCNN 架构。而 UD-DIC（表 1行。表 1）使用 4 个深度 LSTM [18]寻找生成的单词和 ConceptNet 之间的匹配 [27]标签。此外，UD-MMI（表 1。表1）和 AoA-MMI（表1。表 1）在没有任何视觉特征的情况下训练 LSTM 来检测常见和非唯一的句子，并在稍后的推理时使用。从上述模型中，我们观察到击败最先进的结果或增加模型大小甚至使用更好的特征并不会导致我们的模型产生更少的幻觉。

备注1

模型大小（参数）的增加或图像字幕指标的增加不会导致 CHAIR 指标的减少。

这个结论的子变体也可以在 REINFORCE 中看到 [32]训练。字幕社区的常见做法是首先使用交叉熵训练模型，然后使用自我批评损失来训练模型 [32]关于 CIDER-D [37]。虽然这种训练确保了自动指标的显着提升，尤其是在 CIDER 上，但它使我们的模型产生更多幻觉（可以在行表 1中看到。表1，表 1。表 1，表 1。表 1，表 1。表1和表1.表 1 )。

备注1.1

自我批评训练会导致字幕指标的增加，同时使模型产生更多的幻觉。

我们要讨论的下一点是关于我们从表 1开始的方法。表格1。只需添加对象标签作为输入，我们就注意到两个模型的 CHAIR 指标都有所改进。这一进展也可以在 UpDown 模型的经典图像字幕指标上观察到。此外，我们注意到标签的添加也达到了表 1中报告的数字。表 1同时显着减少了句子和宾语水平上的宾语偏差。最后，我们看到这种连接物体标签和视觉特征的简单技术已经在物体幻觉方面取得了最先进的结果，降低了 1% 到 4% 左右。

表2：Karpathy 测试的结果分裂。这些数字是通过使用地面实况对象标签而不是使用对象检测器获得的。

		交叉熵						自我批评
模型	八月	蓝4 ↑	流星 ↑	苹果酒 ↑	香料 ↑	椅子 ↓	椅子里 ↓	蓝4 ↑	流星 ↑	苹果酒 ↑	香料 ↑	椅子 ↓	椅子里 ↓
UD	-	34.6	27.4	112.9	20.8	4.5	2.8	37.9	28.7	125.9	22.3	3.5	2.2
UD	U	34.6	27.4	113.4	20.8	4	2.5	38.0	28.9	126.2	22.5	3.7	2.3
UD	我是	34.5	27.4	114.0	20.9	3.9	2.4	38.0	28.8	126.4	22.5	3.9	2.4
UD	奥克	34.0	27.1	111.6	20.5	3.6	2.2	38.0	28.8	126.4	22.5	3.5	2.1
迎角	-	33.4	27.2	111.4	20.5	4.4	2.7	36.2	28.3	121.3	22.0	4.3	2.6
迎角	U	34.4	27.3	112.5	20.7	2.7	1.6	35.5	28.0	119.2	21.7	3.9	2.3
迎角	我是	34.6	27.4	113.4	20.8	3.1	1.9	36.1	28.3	121.0	22.0	3.9	2.3
迎角	奥克	34.4	27.4	113.0	20.7	2.7	1.6	34.9	27.7	117.4	21.3	3.7	2.2

备注2

仅仅将标签与视觉特征连接起来就可以减少我们模型的幻觉，同时在 CHAIR 指标上击败最先进的模型。

在我们关注增强技术之前，我们想指出，将物体幻觉从 10% 减少到 6% 并不等同于将其从 6% 减少到 2%。原因是有 2 个不同的因素影响幻觉，其中之一是我们要解决的数据集偏差，另一个是嘈杂且不正确的 FasterRCNN 特征。从下一节中，我们看到我们的方法上限约为 2-3%，这表明其余的幻觉主要来自视觉特征。也就是说，可以看出我们的结果甚至更好了表 1行的结果。表1和行表1。表 1与我们提出的技术相比大约提高了 0.5 到 1%。

备注3

我们证明我们提出的技术可以减少相同模型架构上的对象偏差。

此外，我们指出，尽管我们通常会获得其他常见指标的下降，但使用共现更新技术，我们总是能在 CHAIR 指标上获得最佳结果。我们还看到，逆多项式采样可以在经典字幕指标中实现最佳性能。此外，共现更新始终在所有不同的采样中获得最佳的 CHAIR 分数。

备注3.1

逆多项式在标准字幕指标上得分最高，而共现更新在 CHAIR 指标上得分最高。

最后，我们报告最近引入的指标 SPICE-U [41]它评估标题的独特性和信息量。我们对上述指标感兴趣，因为我们担心所提出的增强可能会使字幕模型由于句子简化而产生更多重复或信息量更少的字幕。从表 1中可以看出，即使在标准图像字幕指标有所下降的情况下，我们仍然在 SPICE-U 上有所改进。表 1行中。表 1-表1。从表 1 可以看出，我们在自我批评培训方面甚至有 2% 的提高。这是相当令人鼓舞的，尤其是与表 1行中的 SOTA 数字相比。表 1-表1。表 1中我们甚至在无需训练额外 LSTM 的情况下击败了这些数字。

备注4

我们的技术可以改进或至少保持与生成信息丰富且独特的字幕的基本模型相同。

4.4如果我们有完美的标签提取器怎么办？

正如标题所示，我们试图找出我们技术的上限。换句话说，由于众所周知对象检测器远未提供完美的标签，因此我们使用对象标签的真实注释来测试我们的方法，以查看不同方法的完整性能，如表 2 所示。我们使用表1中提供的相同模型。

第一个结论是，我们看到使用地面实况后所有指标都有所改善。这是完全符合预期的，因为我们已经使用真实注释进行了训练。

备注5

有了完美的物体检测器，我们就可以改进所有指标。

一个重要的评论是，带有标签的模型和经过我们的增强训练的模型之间的差距要大得多。特别是，对于 UpDown，我们看到差距变为 0.9% 和 0.6%，而对于 AoA，CHAIR 和 CHAIRi 上的差距分别为 1.7%、1.1%。这表明，随着目标检测器性能的进步，我们提出的增强将达到更高的值。

备注5.1

我们提出的方法可以通过获得更精确的标签来实现更高的性能。

最后，可以看出，在所有模型中，无论是使用交叉熵还是自我批评进行训练，共现更新总是在 CHAIR 指标上取得最佳分数，证实了我们关于创建统一共现矩阵导致下降的假设关于客体偏见。

备注5.2

通过使共生矩阵统一，可以使我们的模型具有最小的对象偏差。

（A）主席分数

参见标题

(二)CHAIRi 分数

参见标题

图3：低频对上的条形图。我们为我们训练的所有模型提供对象检测器标签和地面实况标签。我们选择包含少于 200 个共现的对象对的句子。

			FRCNN		地面真相
	维斯壮举	标签	椅子	椅子里	椅子	椅子里
UD-L	✓	✗	9.2	6.6	-	-
UD-L + 大学	✓	✗	9.4	6.7	-	-
UD-L + Inv	✓	✗	9.2	6.6	-	-
UD-L + Occ	✓	✗	9.8	7.1	-	-
UD-L	✗	✓	35.8	29.1	35.7	28.7
UD-L + 大学	✗	✓	26.1	18.8	24.7	17.3
UD-L + Inv	✗	✓	29.2	21	28	19.8
UD-L + Occ	✗	✓	20.2	13.6	17.1	11.2

表3：Karpathy 测试的结果分裂。我们要么只向模型提供视觉特征，要么提供对象标签嵌入。

4.5数据增强对模型的影响

我们的下一组实验是为了找出所提出的增强为模型提供了什么。为了解决这个问题，我们决定在推理时将视觉特征或对象标签归零，以了解它们对幻觉的重要性。我们的数字如表3所示。首先，我们意识到使用视觉特征的结果比使用对象标签的结果要好得多。这是预料之中的，并且可以被认为是夺走了模型的“眼睛”。然而，我们发现视觉特征对于 UD-L 来说比通过增强训练的模型（UD-L+Occ 和 UD-L+Uni）更重要。

备注6

所提出的训练使模型更加重视标签，同时减少对视觉特征的依赖。

此外，可以看出，与其他模型相比，我们使用共现更新训练的模型对视觉特征的重视程度较低或利用程度较低。当我们检查视觉特征的归零时，这一点尤其得到加强。我们认识到，使用我们的增强训练的模型更多地利用了提供的标签，其中从 UD-L 到 UD-L+Occ，提高了 15%。该说法的另一个证据是，在 UD-L 中，从物体检测标签到地面实况，仅仅有 0.1%、0.4% 的改进。此外，我们甚至可以看到，当使用基本事实作为模型的输入时，这种差距会更大。我们注意到，当使用 Ground Truth 时，CHAIR 和 CHAIRi 的相同差异分别增加到 18% 和 17%。

备注6.1

在其他 3 个模型中，共现更新对标签的利用最多。


UD ：一只狗坐在湖边的草地上	UD ：一名男子踩着滑板在街上跳跃	UD ：一个小孩子手里拿着遥控器	UD ：一群人在海滩上放着风筝	UD ：一位女士正在看手机
AoA ：一只狗在水体附近的田野里奔跑	AoA ：一个人踩着滑板在空中	AoA ：手里拿着遥控器的婴儿	AoA ：一名男子站在海滩上的遮阳伞下	AoA ：手里拿着手机的女人
我们的（UD）：一匹马坐在湖边的草地上	我们的（UD）：一名男子在交通灯上表演恶作剧	我们的（UD）：婴儿嘴里叼着手机	我们的（UD）：一个男人拿着冲浪板站在海滩上	我们的（UD）：一个人拿着一把剪刀
我们的 (AoA) ：一匹马在靠近水体的田野中奔跑	我们的（AoA）：一名男子在红绿灯上跳跃	我们的（AoA）：一个小女孩手里拿着手机	我们的（AoA）：一群人站在海滩上	我们的（AoA）：女人是一把棕色的剪刀

图4：来自我们的基线和共现更新模型的一些定性样本（称为我们的）。

4.6使用不常见的对象对为图像添加标题

为了进一步研究我们提出的公式，我们为表 1中的所有模型提供了图3。表 1-表 1。表格1。在图 3中，我们计算了低共现对象对的CHAIRs（图 2(a)）和 CHAIRi（图 2(b) ）。为此，我们使用共现小于 200 的对象对过滤了 MSCOCO 数据集的图像。这占 MSCOCO 测试集的 23.6%。可以看出，原始模型 UD（表 1。表1）和 AoA（表 1。表 1）在低频对上比其他模型具有更高的对象偏差，对于 CHAIR 和 CHAIR 上的两个模型均增加了约 2％。CHAIRi 上的 UD 和 AoA 为 0.2%、0.3%。此外，我们在 UD-L 和 AoA-L 上看到更好的数字，因此简单的标签串联可以降低对象偏差。此外，通过使用完美标签（图 3中的橙色条），我们在低频对象对上获得了比表 2中计算的总数更好的数字。这表明我们提出的增强可以很好地处理低频对象对，无论是使用交叉熵还是自我批评进行训练。

此外，我们注意到原始模型和共现更新之间的差距在低频对上更大。因此，我们关于使共生矩阵尽可能均匀以降低对象偏差的假设是有效的。

4.7消融研究

	SS	椅子 [33]	主席Ri [33]
UD-L + 大学	✗	6.3	4.1
UD-L + Inv	✗	6.3	4
UD-L + Occ	✗	6.5	4.2
UD-L + 大学	✓	6.3	4
UD-L + Inv	✓	6.2	4
UD-L + Occ	✓	5.9	3.8

表 4：消融导致句子简化。

我们最后的实验是对句子简化的分析。为了查看建议的句子简化公式是否对对象偏差有任何影响，我们决定在有和没有句子简化的情况下运行 UpDown 模型。我们的结果见表 4。

从表 4可以看出，句子简化似乎对均匀和逆多项式采样没有太大影响。尽管我们在使用句子简化时总是能得到更好的结果，但由于随机性，我们只获得了 0.1%。

然而，句子简化对共现更新有显着影响。我们对这种现象的猜想是，由于共现更新比其他两个采样选择更多数量的各种对，因此模型发现形容词和替换对象之间的相关性。例如，“little”或“cute”通常用于男孩或女孩。当我们首先将短语“可爱的小男孩”替换为“可爱的小西兰花”，然后替换为“可爱的小时钟”时。该模型将学习将“可爱的小”短语首先与西兰花联系起来，然后与时钟联系起来。然而，在均匀采样中，由于本质上的均匀性，模型只会丢弃这种关联，而在逆多项式中，只有少数对将与该短语关联。这就是为什么我们在一致多项式和逆多项式中没有看到太多破坏。

4.8定性结果

最后但并非最不重要的一点是，我们在图4中展示了一些有趣的定性样本。我们的第一句话是，我们的模型在两个方面优于基线，其中之一是删除幻觉对象。这种行为可以在第三列和第四列中观察到，其中基线模型预测了冲浪板、飞盘、沙滩伞或风筝。这些例子展示了我们的模型所利用的强语言先验。

另一方面，我们的模型也优于基线，因为它们不仅删除了不正确的对象，而且还用正确的对象替换了它。例如，在图 4的第一（或第二）列中，虽然基线模型预测的是狗（滑板），但我们的模型将其校正为马（交通灯）。一个重要的注释是句子的动词或动作预测保持不变，例如。坐、跑、跳，这些都需要动作增强技术。

最后，我们看到，即使在错误生成标题的情况下（参见第五列），我们的模型仍然可以识别正确的对象，但它们受到语言模型的限制。

5结论

由于描述无法正确识别对象的图像对于人类来说是不可取的，因此我们关注图像字幕模型中的对象偏差。为了减少图像字幕中的物体幻觉，我们提出了 3 种不同的采样技术来增强句子，将其视为基本事实，以训练图像字幕模型。通过广泛的分析，我们表明所提出的方法可以显着减少我们的模型对幻觉指标的对象偏差。此外，我们还证明，随着目标检测器的进步，我们的方法可以取得更高的分数。此外，我们发现我们建议的技术使模型更少地依赖于视觉特征，并通过使对象的共现统计变得均匀，从而使模型更好地泛化。但更重要的是，我们表明可以减少对象偏差，而无需额外的数据/注释或增加模型大小或架构。我们希望这项研究能够激发更多关于简单但有效的方法的研究，以训练深度模型，同时保持模型复杂性不变。

参考

[1]维迪卡·阿加瓦尔、拉克希斯·谢蒂和马里奥·弗里茨。走向因果 vqa：通过不变和协变语义编辑揭示和减少虚假相关性。IEEE/CVF 计算机视觉和模式识别会议论文集，第 9690–9698 页，2020 年。
[2]彼得·安德森、巴苏拉·费尔南多、马克·约翰逊和斯蒂芬·古尔德。Spice：语义命题图像标题评估。在欧洲计算机视觉会议，2016 年。
[3]彼得·安德森、何晓东、克里斯·布勒、达米安·特尼、马克·约翰逊、斯蒂芬·古尔德和张雷。对图像字幕和 VQA 的自下而上和自上而下的关注。arXiv 预印本 arXiv:1707.07998，2017年。
[4]德兹米特里·巴达瑙、Kyunghyun Cho 和 Yoshua Bengio。通过联合学习对齐和翻译进行神经机器翻译。第 1-15 页，2014 年。
[5]萨拉·比瑞、格兰特·范霍恩和彼得罗·佩罗纳。未知领域的认可。欧洲计算机视觉会议 (ECCV) 会议记录，第 456-473 页，2018 年。
[6]阿里·福尔坎·比特恩、路易斯·戈麦斯、马萨尔·鲁西诺尔和迪莫斯泰尼斯·卡拉察斯。大家好消息！上下文驱动的新闻图像实体感知字幕。IEEE/CVF 计算机视觉和模式识别会议论文集，第 12466–12475 页，2019 年。
[7]陈士哲，金勤，王鹏，吴奇。随心所欲：使用抽象场景图对图像标题生成进行细粒度控制。IEEE/CVF 计算机视觉和模式识别会议论文集，第 9962–9971 页，2020 年。
[8]Kyunghyun Cho、Bart van Merrienboer、Caglar Gulcehre、Dzmitry Bahdanau、Fethi Bougares、Holger Schwenk 和 Yoshua Bengio。使用 RNN 编码器-解码器学习短语表示以进行统计机器翻译。2014年。
[9]马塞拉·科尼亚、洛伦佐·巴拉尔迪和丽塔·库奇亚拉。显示、控制和讲述：用于生成可控且接地字幕的框架。IEEE/CVF 计算机视觉和模式识别会议论文集，第 8307-8316 页，2019 年。
[10]邓家、董卫、理查德·索彻、李丽佳、李凯和李飞飞。Imagenet：大规模分层图像数据库。计算机视觉和模式识别，2009 年。CVPR 2009。IEEE 会议，第 248-255 页。IEEE，2009。
[11]迈克尔·登科斯基和阿隆·拉维。Meteor universal：针对任何目标语言的特定语言翻译评估。统计机器翻译研讨会，2014 年。
[12]Aditya Deshpande、Jyoti Aneja、王立伟、Alexander G Schwing 和 David A Forsyth。具有词性指导的多样化且可控的图像字幕。2018.
[13]杰弗里·多纳休、丽莎·安妮·亨德里克斯、塞尔吉奥·瓜达拉马、马库斯·罗尔巴赫、苏巴斯尼·韦努戈帕兰、凯特·萨恩科和特雷弗·达雷尔。用于视觉识别和描述的长期循环卷积网络。IEEE 计算机视觉和模式识别会议论文集，第 2625-2634 页，2015 年。
[14]罗伯特·盖尔霍斯、约恩·亨里克·雅各布森、克劳迪奥·米凯利斯、理查德·泽梅尔、维兰德·布伦德尔、马蒂亚斯·贝思格和菲利克斯·A·维希曼。深度神经网络中的快捷学习。arXiv 预印本 arXiv:2004.07780 , 2020。
[15]亚什·戈亚尔、特贾斯·科特、道格拉斯·萨默斯·斯泰、德鲁夫·巴特拉和德维·帕里克。让 vqa 中的 v 变得重要：提升图像理解在视觉问答中的作用。IEEE 计算机视觉和模式识别会议论文集，第 6904-6913 页，2017 年。
[16]阿隆·哈勒维、彼得·诺维格和费尔南多·佩雷拉。数据有效性不合理。IEEE 智能系统，24(2):8–12，2009。
[17]丽莎·安妮·亨德里克斯、凯莉·伯恩斯、凯特·萨恩科、特雷弗·达雷尔和安娜·罗尔巴赫。女性也滑雪：克服字幕模型的偏见。欧洲计算机视觉会议，第 793-811 页。施普林格，2018。
[18]塞普·霍克赖特 (Sepp Hochreiter) 和于尔根·施米德胡贝尔 (Jürgen Schmidhuber)。长短期记忆。神经计算，9（8）：1735–1780，1997。
[19]黄伦、王文敏、陈杰和魏晓勇。注意注意图像标题。IEEE/CVF 国际计算机视觉会议论文集，第 4634-4643 页，2019 年。
[20]Armand Joulin、Edouard Grave、Piotr Bojanowski、Matthijs Douze、Hérve Jégou 和 Tomas Mikolov。快速文本。zip：压缩文本分类模型。arXiv 预印本 arXiv:1612.03651，2016 。
[21]安德烈·卡帕蒂和李飞飞。用于生成图像描述的深度视觉语义对齐。IEEE 模式分析和机器智能汇刊，39(4):664–676，2017。
[22]迪德里克·P·金马 (Diederik P Kingma) 和吉米·巴 (Jimmy Ba)。Adam：一种随机优化方法。arXiv 预印本 arXiv:1412.6980，2014年。
[23]Ranjay Krishna、Yuke Zhu、Oliver Groth、Justin Johnson、Kenji Hata、Joshua Kravitz、Stephanie Chen、Yannis Kalanditis、Li-Jia Li、David A Shamma、Michael Bernstein 和李飞飞。视觉基因组：使用众包密集图像注释连接语言和视觉。2016年。
[24]托马斯·S·库恩.科学革命的结构。芝加哥大学出版社，2012 年。
[25]扬·勒昆 (Yann LeCun)、约书亚·本吉奥 (Yoshua Bengio) 和杰弗里·辛顿 (Geoffrey Hinton)。深度学习。自然，521（7553）：436–444，2015。
[26]Tsung-Yi Lin、Michael Maire、Serge Belongie、James Hays、Pietro Perona、Deva Ramanan、Piotr Dollár 和 C Lawrence Zitnick。Microsoft COCO：上下文中的常见对象。在欧洲计算机视觉会议，2014 年。
[27]刘雨果和普什·辛格。Conceptnet——实用的常识推理工具包。BT 技术杂志，22(4):211–226，2004 年。
[28]卢嘉森、杨建伟、Dhruv Batra 和 Devi Parikh。神经婴儿说话。IEEE 计算机视觉和模式识别会议论文集，第 7219-7228 页，2018 年。
[29]海莉·麦克劳德、辛西娅·L·贝内特、梅雷迪思·林格尔·莫里斯和爱德华·卡特雷尔。通过计算机生成的社交媒体图像标题了解盲人的体验。2017 年 CHI 计算系统中的人为因素会议记录，第 5988-5999 页，2017 年。
[30]Kishore Papineni、Salim Roukos、Todd Ward 和 Wj Zhu。BLEU：一种自动评估机器翻译的方法。计算语言学协会年会，2002。
[31]朱迪亚珍珠。因果关系。剑桥大学出版社，2009。
[32]Steven J Rennie、Etienne Marcheret、Youssef Mroueh、Jarret Ross 和 Vaibhava Goel。图像字幕的自我批评序列训练。计算机视觉与模式识别会议，2017。
[33]安娜·罗尔巴赫、丽莎·安妮·亨德里克斯、凯莉·伯恩斯、特雷弗·达雷尔和凯特·萨恩科。图像字幕中的物体幻觉。arXiv 预印本 arXiv:1809.02156，2018 。
[34]拉克什·谢蒂、马库斯·罗尔巴赫、丽莎·安妮·亨德里克斯、马里奥·弗里茨和伯恩特·席勒。说同一种语言：通过对抗性训练将机器与人类字幕进行匹配。IEEE 国际计算机视觉会议论文集，第 4135-4144 页，2017 年。
[35]阿拉斯代尔·特兰、亚历山大·马修斯和谢乐行。转换和讲述：实体感知的新闻图像字幕。IEEE/CVF 计算机视觉和模式识别会议论文集，第 13035–13045 页，2020 年。
[36]Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Lukasz Kaiser 和 Illia Polosukhin。您所需要的就是关注。arXiv 预印本 arXiv:1706.03762，2017年。
[37]Ramakrishna Vedantam、C Lawrence Zitnick 和 Devi Parikh。Cider：基于共识的图像描述评估。在IEEE 计算机视觉和模式识别会议，2015 年。
[38]苏巴斯尼·韦努戈帕兰、丽莎·安妮·亨德里克斯、马库斯·罗尔巴赫、雷蒙德·穆尼、特雷弗·达雷尔和凯特·萨恩科。用不同的对象为图像添加字幕。IEEE 计算机视觉和模式识别会议论文集，第 5753-5761 页，2017 年。
[39]奥里奥尔·维尼亚尔斯、亚历山大·托舍夫、萨米·本吉奥和杜米特鲁·埃尔汉。展示和讲述：神经图像字幕生成器。在IEEE 计算机视觉和模式识别会议，2015 年。
[40]王谭、黄建强、张汉旺、孙倩如。视觉常识 R-CNN。IEEE/CVF 计算机视觉和模式识别会议论文集，第 10760–10770 页，2020 年。
[41]王泽宇、冯伯蒂、卡蒂克·纳拉辛汉和奥尔加·鲁萨科夫斯基。实现独特且信息丰富的图像标题。arXiv 预印本 arXiv:2009.03949 , 2020。
[42]罗纳德·J·威廉姆斯。用于联结强化学习的简单统计梯度跟踪算法。机器学习，8(3-4)：229–256，1992。
[43]吴宇欣、亚历山大·基里洛夫、弗朗西斯科·马萨、罗万彦和罗斯·吉尔希克。检测器2。https://github.com/facebookresearch/detectron2，2019 。
[44]徐光辉、牛帅成、谭明奎、罗玉成、杜庆、吴奇。通过内容多样性探索实现准确的基于文本的图像字幕。IEEE/CVF 计算机视觉和模式识别会议论文集，第 12637–12646 页，2021 年。
[45]Kelvin Xu、Jimmy Ba、Ryan Kiros、Kyunghyun Cho、Aaron Courville、Ruslan Salakhutdinov、Richard Zemel 和 Yoshua Bengio。展示、参与和讲述：具有视觉注意力的神经图像标题生成。国际机器学习会议，2015。
[46]徐阳，张汉旺，蔡剑飞。解混淆的图像标题：因果回顾。arXiv 预印本 arXiv:2003.03923 , 2020。
[47]钟一武、王立伟、陈建树、于冬、李寅。通过场景图分解进行全面的图像说明。欧洲计算机视觉会议，第 211-229 页。施普林格，2020。