目录
[2016][CVPR] Stacked Attention Networks for Image Question Answering
文章链接
本文出自CMU+微软研究院(何晓冬),应该是第一篇提出VQA需要多步推理的文章。本文的动机来自于:在VQA任务中,question和answer往往只和image中的部分信息相关,而现有方法使用image的global feature,这会带来噪声,降低准确性。
在方法上,本文主要包括三个部分:① 使用VGG提取image feature,大小为
512
×
14
×
14
512 \times 14 \times 14
512×14×14,作者将每个
14
×
14
14 \times 14
14×14视为一个region,也就是每个region feature为
512
×
1
512 \times 1
512×1。② 使用CNN或者LSTM提取question feature。③ 基于image feature和question feature生成region level的attention,基于此attention对image feature进行“优化”,基于优化后的image feature对question feature进行“优化”,使其同时具有视觉和语言的信息。多步推理体现在重复进行多次③(文中是两次)。
下面是实验结果,包括DAQUAR、COCO-QA和VQA,结果很好。
[2016][CVPR] Visual7W: Grounded Question Answering in Images
文章链接
文章出自斯坦福李飞飞组。本文的动机和SAN类似,作者认为,直接使用global feature是不好的,应该建立local region link。文中提到这样一句话:a tighter semantic link between textual descriptions and corresponding visual regions is a key ingredient for better models. 和global image-level associations相比,object-level grounding可以降低关联歧义。
本文的方法如下图所示,就是在传统的global方法[28]上,添加了一个spatial attention。
本文的另一大贡献是,构造了Visual7W数据集。这是一个multiple-choice数据集,包含327939个QA pair,47300张图片,1311756个choice,561459个object level标注和36579个类别。为什么数据集叫7W呢,因为从what、where、when、who、why、how和which,这七种W出发构造的数据集。值得一提的是,本文将前6种W称为telling questions,而which称为pointing questions,它们的区别也很显然(which的答案是image中的region,而非文本答案):
Visual7W和现有数据集的对比,如下图所示:
下面是实验结果,添加了spatial attention可以提高4个百分点。