论文地址:https://arxiv.org/abs/1609.06647
1.Introduction
自动识别图像内容并转化为描述比研究得很好的图像分类或对象识别任务要困难得多,后者一直是计算机视觉界的主要关注点。事实上,描述不仅必须捕获图像中包含的对象,还必须描述这些对象如何相互关联,以及它们的属性和所涉及的活动。此外,上述语义知识必须以英语等自然语言表达,这意味着除了视觉理解之外,还需要一种语言模型。
大多数之前的尝试都建议将上述子问题的现有解决方案缝合在一起,以便从图像得到其描述。相比之下,我们希望在本文中呈现一个以图像i为输入的单一联合模型,并且经过训练以最大化产生目标词序列s=s1,s2,…的可能性p.每个单词st都来自一个给定的字典,它充分描述了图像。
我们工作的主要灵感来自机器翻译的最新进展,其中任务是通过最大化p(t_s),将源语言中的句子s转换为目标语言中的翻译t。多年来,机器翻译也通过一系列单独的任务(单独翻译单词、对齐单词、重新排序等)来实现,但最近的工作表明,使用递归神经网络(RNN)可以以更简单的方式进行翻译,并且仍然达到最先进的性能。“编码器”RNN读取源语句并将其转换为丰富的固定长度矢量表示,然后将其用作生成目标语句的“解码器”RNN的初始隐藏状态。
在这里,我们建议遵循这个优雅的配方,用深度卷积神经网络(CNN)代替编码器RNN。在过去的几年中,CNN可以通过将输入图像嵌入固定长度的向量来产生丰富的图像表示,因此这种表示可以用于各种视觉任务。因此,使用CNN作为图像“编码器”是很自然的,首先对其进行图像分类任务的预培训,然后使用最后一个隐藏层作为生成句子的RNN解码器的输入。我们称这个模型为图像描述生成,或NIC。
我们的贡献如下。首先,我们为这个问题提供了一个端到端的系统。它是一个利用随机梯度下降的完全可训练的神经网络。第二,我们的模型结合了最先进的视觉和语言模型子网络。这些可以在更大的语料库上预先培训,从而可以利用额外的数据。我们最终得到的模型与目前最先进的方法相比,性能明显更好。第三,我们吸取了参与第一届MSCOCO竞赛的经验教训,这有助于我们改进初始模型,并在自动度量中排名第一,在人类评估中排名第一(与另一个团队并列)。
2.Related Work
从视觉数据生成自然语言描述的问题一直是计算机视觉研究的问题,但主要是针对视频。传统上,这导致了由视觉原始识别器和结构化形式语言(如安道尔图或逻辑系统)组成的复杂系统,这些系统通过基于规则的系统进一步转换为自然语言。这类系统是手工设计的,相对脆弱,仅在有限的领域(如交通场景或运动)进行演示。
自然语言中的静止图像字幕问题最近受到越来越多的关注。对象识别和检测以及属性识别的最新进展已被用于驱动自然语言生成系统,尽管它们的表达能力有限。Farhad