原论文名称:Exploring Visual Relationship for Image Captioning
作者:Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei
摘要
人们总是相信,对象之间的建模关系将有助于表示和最终描述图像。然而,没有现有技术支持从建模对象关系出发进行image caption生成。在本文中,介绍了一种新的设计---在基于注意力的编码器 - 解码器框架下探索图像描述中对象之间的连接。具体来说,我们提出了图卷积网络(GCN)和长短期记忆(称为GCN-LSTM)架构,novelly之处是它将语义和空间对象关系集成到图像编码器中。从技术上讲,基于图片中被检测对象之间的空间和语义连接构建graph。然后通过GCN利用图结构(graph structure)来改善在对象上提出的每个区域的表示。借助学习到的区域级特征,我们的GCN-LSTM充分利用基于LSTM的caption框架以及用于句子生成的注意机制。对COCO图像描述(image caption)数据集进行了大量实验,与现有最好技术方法相比,得到了优异的结果。更值得注意的是,GCN-LSTM在COCO测试集上将CIDEr-D性能从120.1%提高到128.7%。
介绍
深度神经网络的最新进展完美地证明了其在学习视觉模型时的高能力,特别是在识别方面。 这些成就为图像理解的最终目标迈出了更远的一步,即用完整的自然的句子自动描述图像内容或称为图像描述问题。 图像字幕的典型解决方案[7,34,37,39]受到机器翻译的启发,相当于将图像翻译成文本。 如图1(a)和(b)所示,通常利用卷积神经网络(CNN)或基于区域的CNN(R-CNN)来编码图像和并用递归神经网络(RNN)解码器w/ 或者 w/o注意力机制来生成句子,每个时间步一个单词。无论CNN加RNN图像字幕框架的这些不同版本如何,未充分研究的常见问题是如何利用视觉关系(visual relationship)来考虑对象之间的相互关联或交互是描述图像的自然基础。
Fig.1. Visual representations generated by image encoder in (a) CNN plus LSTM, (b) R-CNN plus LSTM, and (c) our GCN-LSTM for image captioning.
视觉关系(visual relationship)表征图像中检测对象之间的交互或相对位置。视觉关系的检测不仅涉及对象的定位和识别,还涉及对每对对象之间的交互(谓词)进行分类。通常,该关系可以表示为,例如