ReGAT
关系感知图形注意网络用于视觉问答
摘要
这篇论文认为,回答涉及到复杂语义的问题时,VQA模型要能够充分理解图片中的视觉场景,特别是不同物体之间的动态交互。
因此,提出了一个关系感知图注意网络(ReGAT).它将每幅图片编码成一个图,并通过图注意机制建立多类型的对象间关系模型,以学习问题自适应关系表示,同时探讨了两种视觉对象关系:(1)表示对象之间几何位置和语义交互的显示关系。(2)捕捉图像区域之间隐藏动态的隐式关系。
论文分别在VQA 2.0和VQA-CP v2数据集上进行实验。
引言
VQA的主要目标是训练一个能够实现对多模态输入的全面的、语义一致的理解的模型。具体来说,给定一张图片和一个自然语言的问题(已标注好正确答案的),VQA的目标就是联系图像中的视觉特征和问题中的语义意义,来正确回答问题。
目前大多数的VQA模型都关注于学习一个图像和问题的多模态表示模型。具体来说,用CNN或者R-CNN作为图像编码的视觉特征提取器,提取图像的稀疏特征。RNN用于问题编码。在这之后,利用多模态融合来学习表示每个单独区域与问题之间的比对的联合表示,再将这个联合表示丢进一个答案预测器中产生一个答案。
但是,作者在本文中提出了一个上述通用方法所存在的问题----------图像和自然语言之间存在着一个显著的语义鸿沟
如本文所给出的一个例子:对于图1中的两只斑马。模型可以识别黑白像素,但不能识别哪个白色和黑色像素来自哪个斑马。 因此,很难回答诸如“最右边的斑马是斑马宝宝吗?”或“所有的斑马都在吃草吗?”
VQA模