VQA文献阅读 Relation-Aware Graph Attention Network for Visual Question Answering ICCV2019

VQA模型通过ReGAT学习对象间的关系,包括空间、语义关系,以增强图像表示并提升性能。关系编码器包含问题自适应的关系学习,能动态捕获相关关系。
摘要由CSDN通过智能技术生成

关系感知图形注意网络用于视觉问答

摘要

这篇论文认为,回答涉及到复杂语义的问题时,VQA模型要能够充分理解图片中的视觉场景,特别是不同物体之间的动态交互。
因此,提出了一个关系感知图注意网络(ReGAT).它将每幅图片编码成一个图,并通过图注意机制建立多类型的对象间关系模型,以学习问题自适应关系表示,同时探讨了两种视觉对象关系:(1)表示对象之间几何位置和语义交互的显示关系。(2)捕捉图像区域之间隐藏动态的隐式关系。
论文分别在VQA 2.0和VQA-CP v2数据集上进行实验。

引言

VQA的主要目标是训练一个能够实现对多模态输入的全面的、语义一致的理解的模型。具体来说,给定一张图片和一个自然语言的问题(已标注好正确答案的),VQA的目标就是联系图像中的视觉特征和问题中的语义意义,来正确回答问题。
目前大多数的VQA模型都关注于学习一个图像和问题的多模态表示模型。具体来说,用CNN或者R-CNN作为图像编码的视觉特征提取器,提取图像的稀疏特征。RNN用于问题编码。在这之后,利用多模态融合来学习表示每个单独区域与问题之间的比对的联合表示,再将这个联合表示丢进一个答案预测器中产生一个答案。

但是,作者在本文中提出了一个上述通用方法所存在的问题----------图像和自然语言之间存在着一个显著的语义鸿沟
如本文所给出的一个例子:对于图1中的两只斑马。模型可以识别黑白像素,但不能识别哪个白色和黑色像素来自哪个斑马。 因此,很难回答诸如“最右边的斑马是斑马宝宝吗?”或“所有的斑马都在吃草吗?”
VQA模

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值