（六十五）：Image Captioning: Transforming Objects into Words

Laura_Wangzx

已于 2023-06-28 22:24:45 修改

阅读量191

点赞数

文章标签：计算机视觉深度学习机器学习

于 2021-11-09 15:45:38 首次发布

本文链接：https://blog.csdn.net/qq_37486501/article/details/121229170

版权

Image Captioning: Transforming Objects into Words

Abstract
1. Introduction
2. Related Work
3. Method
4. Experimental Setup
5. Evaluation Results
6. Conclusions

出处：
代码：
题目：
主要内容：

Abstract

图像字幕模型通常遵循编码器-解码器体系结构，使用抽象图像特征向量作为编码器的输入。
最成功的算法之一是：从目标检测器获得的区域建议中提取的特征向量。在这项工作中，我们介绍了对象关系转换器，它建立在这种方法之上，通过几何注意显式地合并关于输入检测对象之间的空间关系的信息。定量和定性的结果表明了这种几何注意对图像标题的重要性，导致了MS-COCO数据集上所有常见标题指标的改进。代码可在https:// github.com/yahoo/object_relation_transformer。

1. Introduction

图像标题——提供图像内容的自然语言描述的任务——位于计算机视觉和自然语言处理的交叉点。由于这两个研究领域都非常活跃，并在最近取得了许多进展，图像字幕的进展自然也随之取得了进展。在计算机视觉方面，改进的卷积神经网络和目标检测体系结构有助于改进图像字幕系统。在自然语言处理方面，更复杂的序列模型，如基于注意力的循环神经网络，同样也能产生更准确的标题。

受神经机器翻译的启发，大多数传统的图像字幕系统利用编码器-解码器框架，在这个框架中，输入的图像被编码成包含在图像中的信息的中间表示，然后解码成描述性文本序列。这种编码可以包含CNN的单个特征向量输出(如[25])，也可以包含从图像中不同区域获得的多个视觉特征。在后一种情况下，这些区域可以被均匀采样(如[26])，或者由目标探测器(如[2])引导，这已经被证明可以产生更好的性能。
虽然这些基于检测的编码器代表了最先进的技术，但目前它们没有利用有关被检测对象之间的空间关系的信息，如相对位置和大小。然而，这些信息对于理解图像中的内容通常是至关重要的，人类在对物理世界进行推理时也会使用这些信息。例如，相对位置可以帮助区分“骑马的女孩”和“站在马旁边的女孩”。同样，相对大小可以帮助区分“弹吉他的女人”和“弹尤克里里的女人”。结合空间关系已被证明可以提高目标检测本身的性能，如[9]所示。此外，在机器翻译编码器中，位置关系经常被编码，特别是在Transformer[23]的情况下。
因此，探测物体的相对位置和大小的使用也应该有利于图像字幕视觉编码器，如图1所示。

在这项工作中，我们提出并演示了对象空间关系建模在图像标题中的使用，特别是在Transformer编码器-解码器体系结构中。这是通过在Transformer编码器中合并[9]的对象关系模块来实现的。本文的贡献如下:
•我们介绍了对象关系转换器(Object Relation Transformer)，这是一种专为图像字幕设计的编码器-解码器架构，它通过几何注意整合了输入检测对象之间的空间关系信息。
•通过基线比较和对MS-COCO数据集的消融研究，我们定量地证明了几何注意的有用性。
•最后，我们定性地表明，几何注意力可以导致改进的标题，表明增强的空间意识。

2. Related Work

许多早期用于图像标题的神经模型[17,12,5,25]使用代表整个图像的单一特征向量编码视觉信息，因此没有利用物体及其空间关系的信息。[11]中的Karpathy和Fei-Fei，作为这种全局表示方法的一个显著例外，利用R-CNN对象检测器[7]从多个图像区域中提取特征，并为这些区域生成单独的标题。然而，由于为每个区域生成了单独的标题，检测到的对象之间的空间关系没有建模。他们后续密集的字幕工作[10]也是如此，它提供了一种端到端方法来获取与图像中不同区域相关的字幕。Fang等人在[6]中通过首先检测与图像中不同区域相关联的单词来生成图像描述。利用全卷积神经网络对图像进行空间联想，生成目标词的空间反应图。在这里，作者再次没有明确模拟空间区域之间的任何关系。
也有人提出了一系列基于注意的图像标题方法[26,30,28]，试图将预测标题中的单词定位到图像中的区域。由于视觉注意力通常来自CNN的更高卷积层，空间定位是有限的，往往没有语义意义。
与我们的工作最相似的是，Anderson等人在[2]中通过结合“自下而上”的注意力模型和“自上而下”的LSTM来解决典型注意力模型的这一局限性。自底向上的注意力作用于从更快的R-CNN目标检测器[20]的感兴趣区域中获得的平均池卷积特征。自顶向下的LSTM是一个两层LSTM，其中第一层作为视觉注意模型，关注当前令牌的相关检测，第二层是生成下一个令牌的语言LSTM。作者演示了使用这种方法的视觉问题回答和图像标题的最先进的性能，表明了结合来自目标检测和视觉注意力的特征的好处。同样，空间信息——我们在这项工作中通过几何注意提出的——没有被利用。几何注意是Hu等人在[9]中首次引入的目标检测方法。在那里，作者使用边界框坐标和大小来推断对象对之间关系的重要性，假设如果两个边界框更接近，大小更相似，那么它们的关系就更强。
最成功的后续工作遵循了上述范例，即通过目标检测器获取图像特征，并通过注意LSTM生成标题。
作为添加全局上下文的一种方式，Yao等在[29]中引入了两种图卷积网络:一种是语义关系图，另一种是空间关系图，将两个盒子之间的关系分为11类，如“内部”、“覆盖”或“重叠”。相反，我们的方法直接利用边界盒坐标的大小比和差异，隐式编码和泛化上述关系。
Yang等人在[27]中利用相似的图结构，将目标图像特征提取到图像场景图中。
此外，他们在标题文本上使用语义场景图(即对象、对象之间的关系和属性的图)自动编码器，在与图像场景图共享的字典中嵌入语言归纳偏差。虽然这个模型可以学习在文本中发现的典型空间关系，但它本质上无法捕捉特定于给定图像的视觉几何形状。使用自我批判强化学习生成句子[21]也被证明是最先进的字幕方法的重要，如上述那些。
Liu等人在[15]中提出了一种替代视觉策略的强化学习方法，该方法实际上作为一种注意机制，结合目标检测器提供的图像区域的特征。然而，视觉策略并不利用关于这些图像区域的空间信息。

3. Method

请添加图片描述
图2显示了所提议的图像字幕算法的概述。

首先，我们使用目标检测器从图像中所有被检测到的目标中提取外观和几何特征，如3.1节所述。
然后，我们使用对象关系转换器来生成标题文本。
第3.2节描述了我们如何使用Transformer架构[23]进行图像字幕。
第3.3节解释了在Transformer的编码器层中添加盒关系编码的新方法。

3.1 Object Detection

在[2]之后，我们使用Faster R-CNN[20]和ResNet-101[8]作为基础CNN进行目标检测和特征提取。使用来自ResNet-101的中间特征映射作为输入，区域建议网络(RPN)为对象建议生成边界框。使用非最大抑制，对于IoU超过0.7阈值的重叠边界盒将被丢弃。然后使用感兴趣区域(RoI)池化层将所有剩余的边界框转换为相同的空间尺寸(例如14 × 14 × 2048)。附加的CNN层用于预测类标签和每个框提案的边界框细化。我们进一步丢弃类预测概率低于0.2阈值的所有边界框。最后，我们在空间维度上应用均值池生成每个对象包围框的2048维特征向量。然后将这些特征向量用作Transformer模型的输入。

3.2 Standard Transformer Model

变压器[23]模型包含一个编码器和译码器,两者都是由一堆层(在我们的例子中6)。图像字幕,我们的架构使用的特征向量对象探测器作为输入,并生成一个序列的话(例如,图片标题)作为输出。
每个图像特征向量首先通过输入嵌入层进行处理，该嵌入层由全连接层将维数从2048降至dmodel = 512，然后是ReLU和dropout层。然后将嵌入的特征向量用作Transformer模型的第一个编码器层的输入标记。我们将xn表示为一组N个令牌中的第N个令牌。对于编码器层2到6，我们使用前一个编码器层的输出标记作为当前层的输入。
每个编码器层由一个多头自注意层和一个小的前馈神经网络组成。自我注意层本身由8个相同的头部组成。每个注意头首先计算查询Q，键K和值V的N令牌如下所示：
请添加图片描述
解码器然后使用最后一个编码器层生成的令牌作为输入来生成标题文本。由于Transformer编码器的输出令牌的维度与原始Transformer实现中使用的令牌相同，因此我们在解码器端不做任何修改。对于解码器的详细说明，请读者参阅原始出版物[23]。

3.3 Object Relation Transformer

在我们提出的模型中，我们通过修改方程2中的注意权矩阵ΩA来加入相对几何。我们将两个物体m和n的基于外观的注意权重ωmn乘以它们的相对位置和大小的学习函数。我们使用[9]中首次引入的相同函数来改进Faster R-CNN目标检测器的分类和非最大抑制阶段。
首先，我们根据边界盒m和n的几何特征(xm, ym, wm, hm)和(xn, yn, wn, hn)(中心坐标，宽度和高度)计算位移向量λ(m, n)为

几何注意权值计算为

4. Experimental Setup

我们的算法是在PyTorch中开发的，以[16]中的图像标题实现为基础。我们在NVIDIA Tesla V100 gpu上进行了实验。我们的最佳表现模型使用了ADAM优化器，使用softmax交叉熵损失进行了30个纪元的预训练，学习率与Transformer论文中定义的相同，预热步骤为20000步，批量大小为10。我们使用自批判强化学习[21]优化CIDEr-D评分进行了额外的30个epoch的训练，并在验证集(包含5000张图片)上进行了早期停止以获得最佳性能。在单个GPU上，具有交叉熵损失的训练时间约为1天，自检训练时间约为3.5天。

5.3-5.6节比较的模型在使用标准交叉熵损失训练30个epoch后，使用上述学习率计划的ADAM优化，批量大小为15。与其他关于图像字幕优化的研究21一致，在设置波束大小为2时，这些章节对最佳模型的评价得到了。仅在表1中，为了与文献中其他模型进行公平比较，我们提出了我们的结果与其他作品使用相同的波束大小5传达他们的性能。

5. Evaluation Results

5.1 Dataset and Metrics

我们在Microsoft COCO (MS-COCO) 2014标题数据集[14]上对算法进行了培训和评估。我们报告卡帕西验证和[11]测试的结果，这是在其他图片标题出版物中常用的。数据集包含113K训练图像，每幅图像有5个人工标注的标题。Karpathy测试和验证集分别包含5K张图像。我们使用CIDEr-D[24]、SPICE[1]、BLEU[18]、METEOR[3]和ROUGE-L[13]指标评估我们的模型。虽然实验表明，BLEU和ROUGE与人类判断的相关性低于其他指标[1,24]，但在图像说明文献中通常的做法是报告所有上述指标。

5.2 Comparative Analysis

我们将我们提出的算法与自临界序列训练(Att2all)[21]、自底向上、自上而下(Up-Down)[2]基线的单一模型1的最佳结果以及迄今为止的三个最佳图像字幕模型进行了比较[15,29,27]。表1显示了作者报告的测试分割的指标。[2]的实现后,我们调整我们的模型使用自我批评培训优化CIDEr-D得分[21]和应用定向搜索与光束大小5,实现相对提高了6.8%上下基线,以及最先进的字幕的具体指标 CIDEr-D, SPICE, as well as METEOR, and BLEU-4。

5.3 Positional Encoding

我们提出的几何注意可以看作是对原始Transformer网络的位置编码的替代。虽然对象没有固有的顺序概念，但确实存在一些与位置编码类似的更简单的东西，比如按对象大小排序，或者根据边界框坐标从左到右或从上到下排序。
我们在表2中提供了几何注意和这些对象顺序之间的比较。对于盒子大小，我们简单地计算每个边界盒子的面积和顺序从大到小。对于从左到右的包围盒，我们根据它们的质心的x坐标来排序。使用质心y坐标对从上到下进行类似排序。根据所显示的CIDEr-D分数，对检测到的对象添加这样一个人工排序会降低性能。我们在所有其他指标(SPICE、BLEU、METEOR和ROUGE-L)中观察到类似的性能下降。
请添加图片描述

5.4 Ablation Study

请添加图片描述
表3显示了我们消融研究的结果。我们展示了自底向上和自顶向下算法[2]作为我们的基线算法。第二行用Transformer网络替换LSTM。第三行包括建议的几何注意。最后一行包括波束大小为2的波束搜索。对象关系转换器对METEOR的贡献很小，但对CIDEr-D和BLEU指标的贡献很大。总的来说，我们可以看到在CIDEr-D和BLEU-4分数上的大部分改进。

5.5几何改进

为了展示几何注意层的优势，我们对对象关系转换器和标准转换器进行了更详细的比较。对于考虑的每一个指标，我们对配对样本进行双尾t检验，以确定添加几何注意引起的差异是否具有统计学意义。首先为两个Transformer模型的测试集中的每个图像计算度量，以便我们能够运行配对测试。除了标准的评价指标外，我们还报告了SPICE根据不同的语义子类分解场景图的元组所获得的指标。对于每个子类别，我们都能够计算精度、回忆和f分数。我们所报告的度量是仅采用每个子类别中的元组计算的f分数。更具体地说，我们报告SPICE分数为:对象、关系、属性、颜色、计数和大小[1]。注意，对于给定的图像，并不是所有的SPICE子类别得分都是可用的。例如，如果给定图像的参考标题没有提到颜色，那么SPICE color得分就没有定义，因此我们在特定的分析中忽略了该图像。尽管如此，每个被分析的子类至少有1000个样本。在这个实验中，我们没有对任何一个Transformer进行自我批评训练，它们都是在2束的情况下运行的。

表4和表5显示了在测试集的5000张图像上计算的度量。我们首先注意到，对于所有指标，对象关系转换器的得分都高于标准转换器。CIDEr-D、BLEU-1、ROUGE-L的评分差异有统计学意义(采用显著性水平α = 0.05)(表4);和Count(表5)。CIDEr-D和Relation的显著改进符合我们的预期，即添加几何注意层将有助于模型确定正确的对象之间的关系。此外，有趣的是，SPICE的Count子类别有了显著的改进，从11.30提高到17.51。虽然与人类[1]相比，图像标题方法在Count分数上通常显示出很大的缺陷，但我们能够通过添加明确的位置信息来显示显著的改进。5.6节提供了一些示例来说明这些改进。

6. Conclusions

我们提出了对象关系转换器，它是对传统转换器的修改，特别适合于图像字幕的任务。提出的Transformer基于自底向上和自顶向下的图像字幕方法，对图像中被检测对象之间的2D位置和大小关系进行编码。
我们在MS-COCO数据集上的结果表明，Transformer确实从合并空间关系信息中受益，在比较SPICE标题度量的相关子度量时，这一点最为明显。我们还提供了一些定性的例子，说明如何结合这些信息来产生显示更好的空间意识的字幕结果。
目前，我们的模型只考虑了编码器阶段的几何信息。下一步，我们打算在我们的解码器的物体和单词之间的交叉注意层中加入几何注意。我们的目标是通过显式地将已解码的单词与对象边界框关联起来。这将带来额外的性能收益以及模型的可解释性的提高。

Laura_Wangzx

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
（六十五）：Image Captioning: Transforming Objects into Words

Image Captioning: Transforming Objects into WordsAbstract1. Introduction2. Related Work3. Method3.1 Object Detection3.2 Standard Transformer Model3.3 Object Relation Transformer4. Experimental Setup5. Evaluation Results5.1 Dataset and Metrics5.2 Comparativ
复制链接

扫一扫