2021.02.02 Visual QA论文阅读

NeverMoreH

于 2021-02-02 23:30:40 发布

阅读量236

点赞数

分类专栏： vision&language # visual question answering 文章标签： VQA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ms961516792/article/details/113535076

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

visual question answering

20 篇文章 3 订阅

订阅专栏

目录

[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction
[2016][CVPR] Neural Module Networks

[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction

文章链接
本文主要的创新点是，会根据问题自适应地生成网络参数，由于参数过多会造成过拟合等问题，作者使用了[3]中的哈希方法来降低参数量。另外，本文使用的GRU单元在大型语料库上进行了预训练。

本文方法的整体架构如下图所示，非常容易看懂。

作者在DAQUAR、VQA和COCO-QA三个数据集上做了实验：

[3] W. Chen, J. T. Wilson, S. Tyree, K. Q. Weinberger, and Y. Chen. Compressing neural networks with the hashing trick. In ICML, 2015. 2, 4, 5

[2016][CVPR] Neural Module Networks

文章链接
本文出自UCB的Andreas，是VQA领域的里程碑作品。作者从多个任务和网络结构出发，首先，对于不同的任务，网络结构是不通用的，但是，它们在经验上都是模块化的（一个任务的中间表示是对其他任务是有用的）。因此，Andreas通过探索神经网络的表达能力和灵活的组合能力，尝试去做VQA。

本文的模型结构如下图所示，对于输入的Image和Question，使用CNN提取Image的特征，使用Parser对Question进行解析，得到layout。再根据layout对神经模块（本文预定义了5种模块，下文再讲）进行组合，得到specific network。使用LSTM建模常识和dataset bias，将question整体feature和specific network的结果结合，得到最终答案。

作者预定义的5个模块如下图所示，通过对这5个模块进行组合，应对不同的question。

本文提出了SHAPES数据集，这是一个合成数据集，包含224个unique question、64张图片和15616个QA pair（14592个训练，1024个测试）。

本文方法在SHAPES数据集上的实验结果，其中size是modules 的个数。

在VQA数据集上的实验结果：

可视化的实验结果：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
2021.02.02 Visual QA论文阅读

目录[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction[2016][CVPR] Neural Module Networks[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction文章链接
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。