2021.02.01 Visual QA论文阅读_exploring models and data for remote sensing image-CSDN博客

本文链接：https://blog.csdn.net/ms961516792/article/details/113496153

[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Answering
[2015][NIPS] Exploring Models and Data for Image Question Answering
[2016][AAAI] Learning to Answer Questions from Image Using Convolutional Neural Network
[2016][CVPR] Answer-Type Prediction for Visual Question Answering
[2016][CVPR] Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Answering

文章链接
本文提出了一个多语言的VQA数据集FM-IQA，包含中文（英文）问题和答案。本文方法现在看来很简单，使用CNN提取图像特征，使用LSTM提取问题特征，使用另一个LSTM编码答案中的上下文，再将三个模块的结果融合，生成最终答案。

本文构造的数据集包含158392张图片，316193个中文问题（英文问题个数一致）

实验上，作者构造了baseline模型——blindQA（在融合模块上，不输入image feature），实验结果如下图所示：

[2015][NIPS] Exploring Models and Data for Image Question Answering

文章链接
本文出自多伦多大学Mengye Ren，作者提出了一个端到端的QA模型，使用VGG19提取图片特征后，将特征进行放射变换，作为question中的第一个单词输入LSTM，最后通过softmax得到答案。

作者提出了一个question generation方法，并基于此方法构造了COCO-QA数据集。question generation方法共分为三步：① 使用斯坦福解析器对图片进行解析；② 生成四类问题（Object、Number、Color和Location）；③ 后处理：reject答案出现频率过高（或过低）的QA pair。下表是数据分布：

实验上，作者在DAQUAR和COCO-QA上做了实验，并进行了可视化：

[2016][AAAI] Learning to Answer Questions from Image Using Convolutional Neural Network

文章链接
本文出自华为诺亚方舟实验室。CNN已经在多个任务中展露出不俗的表现，但是还没有被引用在VQA任务中，作者遂将CNN应用在了VQA中。

本文方法共包含三个CNN部分，第一个CNN用于提取图片特征，第二个CNN用于提取文本特征，第三个CNN用于提取多模态特征。值得一提的是，在第三个CNN中，输入是 $V_{qt}^{i}, V_{im}, V_{qt}^{i+1}]$ 。

实验部分，本文在DAQUAR和COCO-QA上进行了实验，结果如下：

[2016][CVPR] Answer-Type Prediction for Visual Question Answering

文章链接
本文的出发点在于，在很多时候，根据问题，即可以确定候选答案。如“这是一个红色的马吗？”，答案只有可能是“是”或者“不是”，而不可能是“绿色”或者“30”。然而，现有的方法中没有显式的进行这种推理。

本文的贡献共包括两方面：① 第一个使用贝叶斯架构预测答案类型，且准确率达到了99.7%。② 在VQA任务中使用skipthought vector[8]，这是2015年在NIPS上提出的新方法，将句子编码成向量的同时，可以保存显著的句子信息。

作者对比了目前的4个VQA数据集，十分细致：

在没有给定答案类别的数据集（如DAQUAR），作者规定了三种类别，分别是：Number、Color和Others。对于给定了答案类别的数据集，COCO-QA作者没做处理，直接使用数据集提供的Object、Color、Counting和Location。COCO-VQA（也就是VQA v1.0），作者将Number类细分为了Counting和Other numbers，并添加了COCO objects和Activity两个类别，前者对应于答案是COCO数据集中的一种object，后者对应于问题以playing和doing为结尾的QA pair。

对于给定的图片的特征 $x$ 、给定的问题的特征 $q$ ，本文的目标是预测 $\sum_{c \in T}P(A=k, T=c|x,q)$ 。其中， $A$ 是答案， $T$ 是答案类别。根据贝叶斯公式可得：
$\frac{P(x|A=k,T=c,q)P(A=k|T=c,q)P(T=c|q)}{P(x|q)}$
将上式中分子的三个部分分别用①②③表示。对于②和③，作者使用逻辑回归分类器去建模；对于①，作者将其建模为下式的多元条件高斯：
$P(x|A=k,T=c,q)=\mathcal{N}(x|\overline{\mu}_{k,c,q},\overline{\Sigma}_{k,c})$