[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering
文章链接
本文的动机很明确,就是组合泛化。什么是组合泛化?在测试集中出现了训练集中没有出现过的“组合”。如:训练集中有“红色的狗”、“绿色的猫”,但是测试集中的数据是“红色的猫”。
在相关工作中,作者首先分析了基于神经符号的VQA方法,典型的方法如NMNs、NS-VQA和NS-CL。这些方法在组合泛化上也具有不错的性能,与它们相比,本文的优势在于,使用概率因子图和图神经网络使两种模态中的concept具有更强的耦合。与基于GNN的VQA方法相比,本文在文本图和视觉图的结点之间做了soft matching。和注重泛化性的VQA方法(SAN、GVQA)相比,这些方法在unseen的对象属性(cleverr - cogent)和语言结构模式(CLOSURE)的组合上没有进行评估,泛化性能不够好。
方法上,本文先将图片和问题分别解析成图,使用共享参数的图神经网络进行图上的信息传递和结点特征更新。将最终得到的两张图(
H
G
s
H_{G_s}
HGs和
H
G
t
H_{G_t}
HGt)上的结点特征作矩阵乘法得到
Φ
^
=
H
G
s
H
G
t
T
∈
R
∣
V
s
∣
×
∣
V
t
∣
\hat{\Phi}=H_{G_s}H_{G_t}^T \in \mathbb{R}^{|V_s| \times |V_t|}
Φ^=HGsHGtT∈R∣Vs∣×∣Vt∣,再进行sinkhorn normalization得到
Φ
\Phi
Φ。根据此矩阵,将文本特征投影到视觉空间
h
s
′
=
Φ
h
t
h_{s}^{'} = \Phi h_t
hs′=Φht,将原视觉特征和投影过来的特征进行concat得到最终的多模态特征
h
s
,
t
=
[
h
s
,
h
s
′
]
h_{s,t}=[h_s,h_{s}^{'}]
hs,t=[hs,hs′]
得到多模态特征后,针对VQA任务,作者直接将多模态特征输入传统的Encoder-Decoder架构即可。
实验部分,作者首先在二分类验证问题上做了实验。
然后在CLOSURE数据集上进行了实验: