2021.02.23 Visual QA论文阅读

[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering

文章链接
本文的动机很明确,就是组合泛化。什么是组合泛化?在测试集中出现了训练集中没有出现过的“组合”。如:训练集中有“红色的狗”、“绿色的猫”,但是测试集中的数据是“红色的猫”。

在相关工作中,作者首先分析了基于神经符号的VQA方法,典型的方法如NMNs、NS-VQA和NS-CL。这些方法在组合泛化上也具有不错的性能,与它们相比,本文的优势在于,使用概率因子图和图神经网络使两种模态中的concept具有更强的耦合。与基于GNN的VQA方法相比,本文在文本图和视觉图的结点之间做了soft matching。和注重泛化性的VQA方法(SAN、GVQA)相比,这些方法在unseen的对象属性(cleverr - cogent)和语言结构模式(CLOSURE)的组合上没有进行评估,泛化性能不够好。

方法上,本文先将图片和问题分别解析成图,使用共享参数的图神经网络进行图上的信息传递和结点特征更新。将最终得到的两张图( H G s H_{G_s} HGs H G t H_{G_t} HGt)上的结点特征作矩阵乘法得到 Φ ^ = H G s H G t T ∈ R ∣ V s ∣ × ∣ V t ∣ \hat{\Phi}=H_{G_s}H_{G_t}^T \in \mathbb{R}^{|V_s| \times |V_t|} Φ^=HGsHGtTRVs×Vt,再进行sinkhorn normalization得到 Φ \Phi Φ。根据此矩阵,将文本特征投影到视觉空间 h s ′ = Φ h t h_{s}^{'} = \Phi h_t hs=Φht,将原视觉特征和投影过来的特征进行concat得到最终的多模态特征 h s , t = [ h s , h s ′ ] h_{s,t}=[h_s,h_{s}^{'}] hs,t=[hs,hs]

得到多模态特征后,针对VQA任务,作者直接将多模态特征输入传统的Encoder-Decoder架构即可。

实验部分,作者首先在二分类验证问题上做了实验。


然后在CLOSURE数据集上进行了实验:


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值