Relation-Aware Graph Attention Network for Visual Question Answering论文解读

本文深入解读了Relation-Aware Graph Attention Network (ReGAT) 在视觉问答(VQA)任务中的作用。ReGAT通过学习问题自适应的视觉对象间关系,提升了VQA性能。模型包括显式和隐式关系的图构造,以及关系编码器,其中关系编码器采用图注意力机制,动态捕捉与问题相关的视觉对象交互。实验结果显示,ReGAT在VQA 2.0和VQA-CP v2数据集上实现了先进的性能。
摘要由CSDN通过智能技术生成

这篇论文的工作不同于现有的VQA系统(并与之兼容)。它以一个新的维度为中心:使用问题自适应的对象间关系丰富图像表示,以提高VQA性能。主要有三方面的贡献:
1、我们提出了一种新的基于图形的关系编码器,用于通过图形注意网络学习视觉对象之间的显式和隐式关系。
2、学习到的关系是问题自适应的,这意味着它们可以动态地捕捉与每个问题最相关的视觉对象关系。
3、我们表明,我们的ReGAT模型是一种通用方法,可以用于改进VQA 2.0数据集上最先进的VQA模型。我们的模型还在更具挑战性的VQA-CP v2数据集上实现了最先进的性能。

研究背景

大多数现有技术对VQA的重点在于学习图像和问题的多模态联合表示。具体而言,卷积神经网络(CNN)或基于区域的CNN(R-CNN)是通常用作图像编码的视觉特征提取器。并且递归神经网络(RNN)用于问题编码。在从视觉特征提取器获得稀疏的图像区域集合之后,多模态融合用于学习一个代表每个区域和问题之间的一致性的联合表示。然后将这种联合表示输入一个答案预测器,以产生一个答案。

事实证明,这个框架对于VQA任务很有用,但是图像和自然语言之间仍然存在着显着的语义鸿沟。 在这里插入图片描述

例如,给定一组斑马的图像该模型可以识别黑白像素,但不能识别哪些白像素和黑像素来自哪个斑马。因此,很难回答诸如“最右边的斑马是小斑马吗?”或“所有斑马都吃草吗?”这样的问题。VQA系统不仅需要识别对象(“斑马”)和周围环境(“草”),还需要识别图像和问题中有关动作(“吃”)和位置(“在最右边”)的语义。

本文提出了一种基于关系感知的图形关注网络(ReGAT),引入了一种新颖的关系编码器它将每个图像编码成图形,并通过图形注意机制对多种类型的对象间关系进行建模,以学习自适应问题的关系表示。
探讨了两种视觉对象关系:
(1)表示物体间几何位置和语义相互作用的显式关系
(2)捕捉图像区域间隐藏动态的隐式关系

不同类型的relation

该论文很敏锐地意识到,物体的视觉关系可以分为三大类:
语义关系:物体对象之间的语义依赖性,以捕捉视觉场景中的交互动态(如:<girl -eating-cake>)
空间关系:物体对象之间的相对几何位置,以与问题中的空间描述对齐(如:< motorcycle - next to-car>)
Implicit Relation (隐式关系):以上两种关系被称为explicit relation,因为它们都是可以被明确命名的,但还有一些关系是我们无法说清楚的,却对模型正确回答问题有重要帮助,于是文章称之为implicit relation。

文章最大的动机是用不同的graph对这三种关系建模,然后综合起来。

Regat既考虑显式关系又考虑隐式关系来丰富图像表示。对于显式关系,我们的模型使用图注意网络(GAT),不是使用的简单GCN。与GCN相反,GAT的使用允许为同一邻域的节点分配不同的重要性。对于隐式关系,我们的模型通过过滤掉与问题无关的关系,而不是平等地对待所有关系,从而学习了一个适合于每个问题的图

ReGAT模型架构

在这里插入图片描述
图一:regat模型的架构。显式关系(语义关系和空间关系)和隐式关系都被考虑在

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值