VQA文献阅读 Relation-Aware Graph Attention Network for Visual Question Answering ICCV2019

最新推荐文章于 2022-11-24 22:03:03 发布

今天也要学习！

最新推荐文章于 2022-11-24 22:03:03 发布

阅读量468

点赞数

分类专栏： VQA 文章标签： vqa

本文链接：https://blog.csdn.net/avast510/article/details/115140701

版权

VQA模型通过ReGAT学习对象间的关系，包括空间、语义关系，以增强图像表示并提升性能。关系编码器包含问题自适应的关系学习，能动态捕获相关关系。

摘要由CSDN通过智能技术生成

ReGAT

关系感知图形注意网络用于视觉问答

关系感知图形注意网络用于视觉问答

摘要

这篇论文认为，回答涉及到复杂语义的问题时，VQA模型要能够充分理解图片中的视觉场景，特别是不同物体之间的动态交互。
因此，提出了一个关系感知图注意网络(ReGAT).它将每幅图片编码成一个图，并通过图注意机制建立多类型的对象间关系模型，以学习问题自适应关系表示，同时探讨了两种视觉对象关系：（1）表示对象之间几何位置和语义交互的显示关系。（2）捕捉图像区域之间隐藏动态的隐式关系。
论文分别在VQA 2.0和VQA-CP v2数据集上进行实验。

引言

VQA的主要目标是训练一个能够实现对多模态输入的全面的、语义一致的理解的模型。具体来说，给定一张图片和一个自然语言的问题(已标注好正确答案的)，VQA的目标就是联系图像中的视觉特征和问题中的语义意义，来正确回答问题。
目前大多数的VQA模型都关注于学习一个图像和问题的多模态表示模型。具体来说，用CNN或者R-CNN作为图像编码的视觉特征提取器，提取图像的稀疏特征。RNN用于问题编码。在这之后，利用多模态融合来学习表示每个单独区域与问题之间的比对的联合表示，再将这个联合表示丢进一个答案预测器中产生一个答案。

但是，作者在本文中提出了一个上述通用方法所存在的问题----------图像和自然语言之间存在着一个显著的语义鸿沟
如本文所给出的一个例子：对于图1中的两只斑马。模型可以识别黑白像素，但不能识别哪个白色和黑色像素来自哪个斑马。因此，很难回答诸如“最右边的斑马是斑马宝宝吗？”或“所有的斑马都在吃草吗？”
VQA模

最低0.47元/天解锁文章

今天也要学习！

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
VQA文献阅读 Relation-Aware Graph Attention Network for Visual Question Answering ICCV2019

ReGAT关系感知图形注意网络用于视觉问答摘要引言合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入关系感知图形注意网络用于视觉问答摘要这篇论文认为，回答涉及到复杂语义的问题时，VQA模型要能够充分理解图片中的视觉场景，特别是不同物体之间
复制链接

扫一扫

专栏目录