2021.02.23 Visual QA论文阅读

最新推荐文章于 2022-05-21 21:48:06 发布

NeverMoreH

最新推荐文章于 2022-05-21 21:48:06 发布

阅读量548

点赞数 1

分类专栏： vision&language # visual question answering 文章标签：多模态图网络组合泛化视觉问答图神经网络信息传递

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ms961516792/article/details/113974139

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

visual question answering

20 篇文章 3 订阅

订阅专栏

目录

[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering

[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering

文章链接
本文的动机很明确，就是组合泛化。什么是组合泛化？在测试集中出现了训练集中没有出现过的“组合”。如：训练集中有“红色的狗”、“绿色的猫”，但是测试集中的数据是“红色的猫”。

在相关工作中，作者首先分析了基于神经符号的VQA方法，典型的方法如NMNs、NS-VQA和NS-CL。这些方法在组合泛化上也具有不错的性能，与它们相比，本文的优势在于，使用概率因子图和图神经网络使两种模态中的concept具有更强的耦合。与基于GNN的VQA方法相比，本文在文本图和视觉图的结点之间做了soft matching。和注重泛化性的VQA方法（SAN、GVQA）相比，这些方法在unseen的对象属性(cleverr - cogent)和语言结构模式(CLOSURE)的组合上没有进行评估，泛化性能不够好。

方法上，本文先将图片和问题分别解析成图，使用共享参数的图神经网络进行图上的信息传递和结点特征更新。将最终得到的两张图（ $H_{G_s}$ 和 $H_{G_t}$ ）上的结点特征作矩阵乘法得到 $\hat{\Phi}=H_{G_s}H_{G_t}^T \in \mathbb{R}^{|V_s| \times |V_t|}$ ，再进行sinkhorn normalization得到 $\Phi$ 。根据此矩阵，将文本特征投影到视觉空间 $h_{s}^{'} = \Phi h_t$ ，将原视觉特征和投影过来的特征进行concat得到最终的多模态特征 $h_{s,t}=[h_s,h_{s}^{'}]$

得到多模态特征后，针对VQA任务，作者直接将多模态特征输入传统的Encoder-Decoder架构即可。

实验部分，作者首先在二分类验证问题上做了实验。

然后在CLOSURE数据集上进行了实验：

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。