2021.02.18 Visual QA论文阅读_language-conditioned graph networks for relational-CSDN博客

本文链接：https://blog.csdn.net/ms961516792/article/details/113843893

[2017][CVPR] Graph-Structured Representations for Visual Question Answering
[2019][ICCV] Language-Conditioned Graph Networks for Relational Reasoning
[2019][ICCV] Relation-Aware Graph Attention Network for Visual Question Answering
[2020][CVPR] Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

[2017][CVPR] Graph-Structured Representations for Visual Question Answering

文章链接
本文的动机在Abstract第一句，使用视觉和文本的结构化表示提升VQA性能。作者在Introduction中总结了VQA的两个Challenge：①很多问题需要复杂的理解能力；②VQA的训练数据具有稀疏性，即：同一张图片上有很多不同的问题，但是训练集中无法完全包含这些问题。

本文方法如下图所示，在视觉和文本两个模态上分别建立场景图，视觉场景图初始时全连接，文本场景图基于斯坦福解析器。得到场景图后，对两张场景图分别使用GRU+pooling操作聚集邻居信息，重复4次，得到最终的结点特征。基于原文本和视觉特征计算余弦相似度，得到Matching weights。基于最终文本和视觉特征计算Combined features。将二者做element-wise乘法，在得到的矩阵上，进行特征聚集（过程如下面三行公式， $a_{i,j}$ 是Matching weights中的元素），得到最终特征，用于预测答案。

作者在VQA v1.0上做了实验（合成数据集）：

中间可视化结果：

[2019][ICCV] Language-Conditioned Graph Networks for Relational Reasoning

文章链接
本文出自UC伯克利。

关于复杂的关系推理，已存在很多的研究方法。但是它们都将研究重点放在推理结构（inference structure）上，而忽略了特征。本文提出了LCGN（Language-Conditioned Graph Networks），使用每个节点表示一个物体，基于输入的文本信息，通过迭代的消息传递，最终得到物体的上下文表示（context-aware representation）。

下图是本文方法的整体框架。首先，使用双向LSTM提取文本特征，这里作者使用了Stack-NMN（ECCV2018）和MAC（ICLR2018）中的multi-step textual attention。然后，对图像提取local features。最后，进行 $T$ 轮消息传递，得到output context- aware features。根据不同的任务，再添加不同的组件即可。

在GQA数据集上的实验结果：

在GQA数据集上，使用不同的local features得到的实验结果：

在CLEVER数据集上的实验结果， $T = 4$ ：

一些中间结果展示：

[2019][ICCV] Relation-Aware Graph Attention Network for Visual Question Answering

文章链接
现有方法在两种模态之间存在显著的语义gap，如：模型可以识别出有两只斑马，但是不知道哪些pixel来自哪只斑马，更难以回答类似“这两只斑马离得远吗？”这种问题。为了解决这个问题，需要捕获物体之间的动作关系和空间关系。故本文的出发点是：使用基于question的objects之间的关系，增强image的表示能力，从而提升VQA性能。

本文方法整体上如下图所示：

其中，在Relation Encoder部分共分为三个部分：语义关系编码器、空间关系编码器和隐式关系编码器，前两个均属于显式关系编码。对于每个编码器都要构造一张图，三张图的结点都是一致的，不同的在于边。隐式关系图中使用全连接结构，显式关系图会训练一个分类器，预测每两个结点之间是否有边。对于空间关系编码器，作者参考了文献[58]中的方法，生成<obj, rel, obj>形式的边，共有11中不同的边（如相交、左侧等）。对于语义关系编码器，作者使用Visual Genome数据集训练了一个语义分类器，分类器的输入是：两个obj的feature，两个obj的并区域的feature，分类器会输出这两个obj之间的关系概率。

在VQA 2.0数据集上的实验结果：

可视化的实验结果：

[58] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei. Exploring visual relationship for image captioning. In ECCV, 2018. 2, 3, 4, 6

[2020][CVPR] Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

文章链接
本文出自计算所王瑞平老师、山世光老师。本文面对TextVQA任务，作者认为此任务的一个难点是——图像中经常出现不常见的、或带有歧义的词语。所以，仅仅使用预训练的word embedding方法是不够的。本文提出多模态图神经网络（MM-GNN），通过构造三个不同的图，聚集不同图之间的信息，学习更好的特征用于下游的QA任务。虽然已经有很多用在VQA上的GNN方法，本文和他们区别在于：单模态图上的信息聚集→多模态图上的信息聚集。

本文方法如下图所示。作者分别通过训练好的模型对图片进行检测，得到三张图：数字图 $G_n$ 、语义图 $G_s$ 、视觉图 $G_v$ 。初始时，这三张图分别是全连接的。然后，通过如图所示的三次Aggregator，每次Aggregate时都是基于attention的（先计算两个节点之间的score，再通过score进行softmax）。但是让我困惑的一点是，在进行跨图GNN时，作者说，对于语义节点 $s_i$ ，要first attentind on语义图中的相关邻居节点 $\mathcal{N}_{s_i}^{v}$ ，这一步不太清楚是用attention确定的，还是别的什么操作。
在这里插入图片描述
在TextVQA数据集上的实验结果：