VQA系列论文（二）

jiojio-star

已于 2022-03-31 08:43:16 修改

阅读量3.5k

点赞数 1

分类专栏： VQA 文章标签：深度学习

于 2022-03-31 08:42:43 首次发布

本文链接：https://blog.csdn.net/qq_45667337/article/details/123862378

版权

论文阅读：《Multimodal Graph Networks for Compositional Generalization in Visual Question Answering》

标题：视觉问答中关于组合泛化的多模态图神经网络
来源：NeurlPS 2020https://proceedings.neurips.cc/paper/2020/hash/1fd6c4e41e2c6a6b092eb13ee72bce95-Abstract.html
代码：https://github.com/raeidsaqur/mgn

一、问题提出

重点：组合泛化问题

例子：自然语言为例，比如人们能够学习新单词的含义，然后将其应用到其他语言环境中。一个人如果学会了一个新动词 ‘dax’ 的意思，就能立即类推到 ‘sing and dax’ 的意思。” 类似地，在训练的时候，可能在测试集中出现了训练集中没有出现过的元素“组合”（这些元素在训练集中存在）。如：训练集中有“红色的狗”、“绿色的猫”，但是测试集中的数据是“红色的猫”。

问题：在最近的研究表明，模型无法推广到新的输入，而这些输入仅仅是训练集组合分布所见元素中的未遇见过的组合[6]。

一般地，使用卷积神经网络（CNN）构建多模态表示的神经架构将整个图像处理为单个全局表示（例如向量），但无法捕获这种细粒度相关性[29]。

基于神经符号的VQA方法（比如NMNs、NS-VQA和NS-CL）虽然在CLEVR等基准上取得了接近完美的分数[28,29]。但即使视觉输入的分布保持不变（输入图像不变），这些模型也无法推广到新的语言结构组合（问题发生变化）[6]。一个关键原因是缺乏关于图像和文本信息的细粒度的表示，这种表示允许在视觉和语言空间上进行联合合成推理。

二、主要思想

作者提出了一种基于图的多模态表示学习方法——多模态图网络（MGN），重点是可以实现更好的泛化效果。图结构可以去捕获实体、属性和关系，从而可以在不同模态（例如图像和文本）的概念之间建立更紧密的耦合。

动机：

考虑图中的图像和相关的问题：“在大的绿色圆柱体后面有一个黄色的橡皮立方体。”回答这个问题需要首先找到绿色圆柱体，然后扫描它后面的空间，寻找黄色的橡胶立方体。具体来说，1）虽然可能存在其他对象（例如，另一个球），但关于它们的信息可以被抽象出来，2）需要在代表“黄色”和“立方体”的视觉和语言输入之间建立细粒度的联系。

核心思想：将文本和图像都表示为图，自然可以使两种模式之间的概念更紧密地耦合，并为推理提供合成空间。具体来说，首先将图像和文本解析为单独的图，对象实体和属性作为节点，关系作为边。然后，我们使用类似于图神经网络[16]中使用的消息传递算法（message passing），在两种模式的节点对之间导出相似因子矩阵（correspondence factor matrix）。最后，使用基于图的聚合机制来生成输入的多模态向量表示。

具体模型：

Part1：图结构

多模态输入实例：元组（s，t），其中s是源文本输入（例如，问题或标题），t是对应的目标图像。
图形解析器（Graph Parser）：
输入：元组（s，t）
输出：相应的以对象为中心的图 $G_s=(V_s,A_s,X_s,E_s)$ 和 $G_t=(V_t,A_t,X_t,E_t)$ 。
其中，图中所有节点构成集合V，A是图的邻接矩阵，X是图G中所有节点V的特征矩阵，E是图G中所有边的特征矩阵。
具体的方法：
对输入文本s，使用实体识别模块将对象和属性捕获为图形节点V，然后使用关系匹配模块捕获节点的关系作为图 $G_s$ 中的边。

对图像t，使用预训练的Mask RCNN和ResNet-50 FPN图像语义分割模块来获取对象、属性和位置坐标（x、y、z）。这些节点在图 $G_t$ 中形成单独的节点。
在 $G_s$ 和 $G_t$ 中构造节点和边之后，通过使用预先训练的语言模型中的词向量嵌入（word embadding）（假设维度为d）作为文本图节点（对象、属性）和边（关系）的特征向量，从而获得特征矩阵X和E。对于图像场景图，我们使用从“解析场景”（来自Mask-RCNN通道）获得的对象和属性标签作为语言模型的输入，来获得特征嵌入。
图形匹配器（Graph Matcher）：
输入：图 $G_s=(V_s,A_s,X_s,E_s)$