目录
[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction
文章链接
本文主要的创新点是,会根据问题自适应地生成网络参数,由于参数过多会造成过拟合等问题,作者使用了[3]中的哈希方法来降低参数量。另外,本文使用的GRU单元在大型语料库上进行了预训练。
本文方法的整体架构如下图所示,非常容易看懂。
作者在DAQUAR、VQA和COCO-QA三个数据集上做了实验:
[2016][CVPR] Neural Module Networks
文章链接
本文出自UCB的Andreas,是VQA领域的里程碑作品。作者从多个任务和网络结构出发,首先,对于不同的任务,网络结构是不通用的,但是,它们在经验上都是模块化的(一个任务的中间表示是对其他任务是有用的)。因此,Andreas通过探索神经网络的表达能力和灵活的组合能力,尝试去做VQA。
本文的模型结构如下图所示,对于输入的Image和Question,使用CNN提取Image的特征,使用Parser对Question进行解析,得到layout。再根据layout对神经模块(本文预定义了5种模块,下文再讲)进行组合,得到specific network。使用LSTM建模常识和dataset bias,将question整体feature和specific network的结果结合,得到最终答案。
作者预定义的5个模块如下图所示,通过对这5个模块进行组合,应对不同的question。
本文提出了SHAPES数据集,这是一个合成数据集,包含224个unique question、64张图片和15616个QA pair(14592个训练,1024个测试)。
本文方法在SHAPES数据集上的实验结果,其中size是modules 的个数。
在VQA数据集上的实验结果:
可视化的实验结果: