2021.01.30 Visual QA论文阅读-CSDN博客

本文链接：https://blog.csdn.net/ms961516792/article/details/113420551

[2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images

文章链接
本文和NIPS2014那篇文章一样，出自马普所的Malinowski。2014那篇是依据语义解析器进行视觉问答，本文使用的是端到端的LSTM。作者还基于DAQUAR数据集搜集了额外的答案，构建了DAQUAR-Consensus数据集，并提出了两个新的metric。

用 $x$ 表示输入图片，用 $q$ 表示输入问题，用 $a$ 表示模型输出的答案。作者在第t个时间步时，将 $v_t=[x,[q,a]]$ 输入LSTM模块，训练时, $a$ 为gt，测试时， $a=[a_1,...,a_{t-1}]$ 。

在DAQUAR数据集上的实验结果：

下图是在DAQUAR-Consensus数据集上的实验结果，其中ACM（Average Consensus Metric）和MCM（Min Consensus Metric）是本文提出的新metric，前者定义为 $\frac{1}{NK} \sum_{i=1}^{N} \sum_{k=1}^{K} \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \}$ 。后者定义为 $\frac{1}{N} \sum_{i=1}^{N} \text{max}_{k=1}^K ( \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \})$ 。其中， $A^i$ 是模型对第 $i$ 个问题的答案， $T^i_k$ 是人类对第 $i$ 个问题的第 $k$ 中可能的回答， $\mu(a,t)$ 是一个评价指标，比如WUP。

[2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering

文章链接
本文作者出自北卡罗来纳大学，一作为Licheng Yu。本文主要是提出了两个新task，并构造了数据集Visual Madlibs。第一个task是targeted natural language generation，简称TNLG，第二个是multiple-choice question answering，简称MCQA。

TNLG任务其实和image caption任务类似，不同的点在于，TNLG是填空式caption，输入是：一张图片、一个Instruction和一个Prompt，需要模型输出blank处的答案。MCQA任务的输入包含TNLG的输入，但多了许多个候选答案，模型需要选出最适合填入blank中的答案。

实验上，作者在一些baseline方法，还有一些简单的joint-embedding方法上进行了对比，下面是MCQA任务的实验结果。

[2015][ICCV] VQA: Visual Question Answering

文章链接
本文出自Virginia Tech和微软研究院，一作是Stanislaw Antol。本文是第一篇明确提出VQA（Visual Question Answering）任务的文章。VQA任务定义为：输入文本形式问题+一张图片，输出文本形式答案。且此任务是开放、自由的，不提供候选答案（虽然本文提到他们也提出了多选VQA任务），也不fill in blank。

本文构造的数据集叫作VQA v1.0，包含265016张图片（来自COCO），每张图片有至少3个问题，每个问题有10个候选答案、3个假答案。

在实验部分，本文构建了两个简单的baseline model。首先，取数据集中最常见的1000中答案，作为备选（基本可以回答82.67%的问题）。分别训练一个MLP和LSTM+softmax模型，将VQA问题视为1000分类问题去训练，作为baseline。下图是实验结果，Q代表question，I代表image，C代表caption（图片的human caption结果），表示在不同的输入下，模型的结果。