2021.02.02 Visual QA论文阅读

[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction

文章链接
本文主要的创新点是,会根据问题自适应地生成网络参数,由于参数过多会造成过拟合等问题,作者使用了[3]中的哈希方法来降低参数量。另外,本文使用的GRU单元在大型语料库上进行了预训练。

本文方法的整体架构如下图所示,非常容易看懂。

作者在DAQUAR、VQA和COCO-QA三个数据集上做了实验:

[3] W. Chen, J. T. Wilson, S. Tyree, K. Q. Weinberger, and Y. Chen. Compressing neural networks with the hashing trick. In ICML, 2015. 2, 4, 5


[2016][CVPR] Neural Module Networks

文章链接
本文出自UCB的Andreas,是VQA领域的里程碑作品。作者从多个任务和网络结构出发,首先,对于不同的任务,网络结构是不通用的,但是,它们在经验上都是模块化的(一个任务的中间表示是对其他任务是有用的)。因此,Andreas通过探索神经网络的表达能力和灵活的组合能力,尝试去做VQA。

本文的模型结构如下图所示,对于输入的Image和Question,使用CNN提取Image的特征,使用Parser对Question进行解析,得到layout。再根据layout对神经模块(本文预定义了5种模块,下文再讲)进行组合,得到specific network。使用LSTM建模常识和dataset bias,将question整体feature和specific network的结果结合,得到最终答案。

作者预定义的5个模块如下图所示,通过对这5个模块进行组合,应对不同的question。




本文提出了SHAPES数据集,这是一个合成数据集,包含224个unique question、64张图片和15616个QA pair(14592个训练,1024个测试)。

本文方法在SHAPES数据集上的实验结果,其中size是modules 的个数。

在VQA数据集上的实验结果:

可视化的实验结果:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值