2021.02.03 Visual QA论文阅读_visual7w o-CSDN博客

本文链接：https://blog.csdn.net/ms961516792/article/details/113609614

[2016][CVPR] Stacked Attention Networks for Image Question Answering

文章链接
本文出自CMU+微软研究院（何晓冬），应该是第一篇提出VQA需要多步推理的文章。本文的动机来自于：在VQA任务中，question和answer往往只和image中的部分信息相关，而现有方法使用image的global feature，这会带来噪声，降低准确性。

在方法上，本文主要包括三个部分：① 使用VGG提取image feature，大小为 $512 \times 14 \times 14$ ，作者将每个 $14 \times 14$ 视为一个region，也就是每个region feature为 $512 \times 1$ 。② 使用CNN或者LSTM提取question feature。③ 基于image feature和question feature生成region level的attention，基于此attention对image feature进行“优化”，基于优化后的image feature对question feature进行“优化”，使其同时具有视觉和语言的信息。多步推理体现在重复进行多次③（文中是两次）。

下面是实验结果，包括DAQUAR、COCO-QA和VQA，结果很好。

[2016][CVPR] Visual7W: Grounded Question Answering in Images

文章链接
文章出自斯坦福李飞飞组。本文的动机和SAN类似，作者认为，直接使用global feature是不好的，应该建立local region link。文中提到这样一句话：a tighter semantic link between textual descriptions and corresponding visual regions is a key ingredient for better models. 和global image-level associations相比，object-level grounding可以降低关联歧义。

本文的方法如下图所示，就是在传统的global方法[28]上，添加了一个spatial attention。

本文的另一大贡献是，构造了Visual7W数据集。这是一个multiple-choice数据集，包含327939个QA pair，47300张图片，1311756个choice，561459个object level标注和36579个类别。为什么数据集叫7W呢，因为从what、where、when、who、why、how和which，这七种W出发构造的数据集。值得一提的是，本文将前6种W称为telling questions，而which称为pointing questions，它们的区别也很显然（which的答案是image中的region，而非文本答案）：