2021.02.18 Visual QA论文阅读

[2017][CVPR] Graph-Structured Representations for Visual Question Answering

文章链接
本文的动机在Abstract第一句,使用视觉和文本的结构化表示提升VQA性能。作者在Introduction中总结了VQA的两个Challenge:①很多问题需要复杂的理解能力;②VQA的训练数据具有稀疏性,即:同一张图片上有很多不同的问题,但是训练集中无法完全包含这些问题。

本文方法如下图所示,在视觉和文本两个模态上分别建立场景图,视觉场景图初始时全连接,文本场景图基于斯坦福解析器。得到场景图后,对两张场景图分别使用GRU+pooling操作聚集邻居信息,重复4次,得到最终的结点特征。基于原文本和视觉特征计算余弦相似度,得到Matching weights。基于最终文本和视觉特征计算Combined features。将二者做element-wise乘法,在得到的矩阵上,进行特征聚集(过程如下面三行公式, a i , j a_{i,j} ai,j是Matching weights中的元素),得到最终特征,用于预测答案。

作者在VQA v1.0上做了实验(合成数据集):

中间可视化结果:


[2019][ICCV] Language-Conditioned Graph Networks for Relational Reasoning

文章链接
本文出自UC伯克利。

关于复杂的关系推理,已存在很多的研究方法。但是它们都将研究重点放在推理结构(inference structure)上,而忽略了特征。本文提出了LCGN(Language-Conditioned Graph Networks),使用每个节点表示一个物体,基于输入的文本信息,通过迭代的消息传递,最终得到物体的上下文表示(context-aware representation)。

下图是本文方法的整体框架。首先,使用双向LSTM提取文本特征,这里作者使用了Stack-NMN(ECCV2018)和MAC(ICLR2018)中的multi-step textual attention。然后,对图像提取local features。最后,进行 T T T轮消息传递,得到output context- aware features。根据不同的任务,再添加不同的组件即可。

在GQA数据集上的实验结果:

在GQA数据集上,使用不同的local features得到的实验结果:

在CLEVER数据集上的实验结果, T = 4 T=4 T=4

一些中间结果展示:


[2019][ICCV] Relation-Aware Graph Attention Network for Visual Question Answering

文章链接
现有方法在两种模态之间存在显著的语义gap,如:模型可以识别出有两只斑马,但是不知道哪些pixel来自哪只斑马,更难以回答类似“这两只斑马离得远吗?”这种问题。为了解决这个问题,需要捕获物体之间的动作关系和空间关系。故本文的出发点是:使用基于question的objects之间的关系,增强image的表示能力,从而提升VQA性能。

本文方法整体上如下图所示:

其中,在Relation Encoder部分共分为三个部分:语义关系编码器、空间关系编码器和隐式关系编码器,前两个均属于显式关系编码。对于每个编码器都要构造一张图,三张图的结点都是一致的,不同的在于边。隐式关系图中使用全连接结构,显式关系图会训练一个分类器,预测每两个结点之间是否有边。对于空间关系编码器,作者参考了文献[58]中的方法,生成<obj, rel, obj>形式的边,共有11中不同的边(如相交、左侧等)。对于语义关系编码器,作者使用Visual Genome数据集训练了一个语义分类器,分类器的输入是:两个obj的feature,两个obj的并区域的feature,分类器会输出这两个obj之间的关系概率。

在VQA 2.0数据集上的实验结果:

可视化的实验结果:

[58] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei. Exploring visual relationship for image captioning. In ECCV, 2018. 2, 3, 4, 6


[2020][CVPR] Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

文章链接
本文出自计算所王瑞平老师、山世光老师。本文面对TextVQA任务,作者认为此任务的一个难点是——图像中经常出现不常见的、或带有歧义的词语。所以,仅仅使用预训练的word embedding方法是不够的。本文提出多模态图神经网络(MM-GNN),通过构造三个不同的图,聚集不同图之间的信息,学习更好的特征用于下游的QA任务。虽然已经有很多用在VQA上的GNN方法,本文和他们区别在于:单模态图上的信息聚集→多模态图上的信息聚集。

本文方法如下图所示。作者分别通过训练好的模型对图片进行检测,得到三张图:数字图 G n G_n Gn、语义图 G s G_s Gs、视觉图 G v G_v Gv。初始时,这三张图分别是全连接的。然后,通过如图所示的三次Aggregator,每次Aggregate时都是基于attention的(先计算两个节点之间的score,再通过score进行softmax)。但是让我困惑的一点是,在进行跨图GNN时,作者说,对于语义节点 s i s_i si,要first attentind on语义图中的相关邻居节点 N s i v \mathcal{N}_{s_i}^{v} Nsiv,这一步不太清楚是用attention确定的,还是别的什么操作。
在这里插入图片描述
在TextVQA数据集上的实验结果:

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值