部分数据集介绍摘自这篇博客
任务描述
- 输入:图片 I I I、由 n n n个单词组成的问题 Q = { q 1 , . . . , q n } Q=\{ q_1,...,q_n \} Q={q1,...,qn}
- 输出:由 m m m个单词组成的问题的答案 A = { a 1 , . . . , a m } A=\{ a_1,...,a_m \} A={a1,...,am}
应用领域
- 盲人导航
- 图灵测试
主要问题
-
鲁棒性差
模型的鲁棒性差可多个方面体现,如缺乏可解释性、回答不一致等。造成这个问题的原因也是多方面的,如训练集和测试集的分布不同、语言先验等。所以鲁棒性差算是一个比较笼统、大范围的概念。
已有方法:反事实、迁移学习、场景图等(太多方法可以提高模型的鲁棒性了)
参考文献:[1] CVPR 2020 Towards Causal VQA Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing -
可解释性
已有方法:关系推理、场景图
参考文献:[1] CVPR 2019 Explainable and Explicit Visual Reasoning over Scene Graphs
[2] ICCV 2019 Language-Conditioned Graph Networks for Relational Reasoning -
回答一致性
已有方法:新数据集VQA-Rephrasings、SQuINTing
参考文献:[1] CVPR2019 Cycle-Consistency for Robust Visual Question Answering
[2] CVPR 2020 SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions -
训练集和测试集分布不一致(衍生问题:出现out-of-vocabulary answer)
已有方法:使用Self-Critical Reasoning提高influential objects的sensitivity、迁移学习、反事实
参考文献:[1] CVPR 2019 Self-Critical Reasoning for Robust Visual Question Answering
[2] CVPR 2019 Transfer Learning via Unsupervised Task Discovery
[3] CVPR 2020 Counterfactual Samples Synthesizing for Robust Visual Question Answering -
语言先验
已有方法:问题分解
参考文献:[1] AAAI 2020 Overcoming Language Priors in VQA via Decomposed Linguistic Representations
[2] CVPR 2018 Dont just assume; look and answer: Overcoming priors for visual question answering -
跨模态交互(新视角)
已有方法:转化为机器阅读理解任务、提取不同模态信息的summarizations
参考文献:[1] CVPR 2019 Visual Question Answering as Reading Comprehension
[2] ICCV 2019 Multi-modality Latent Interaction Network for Visual Question Answering -
domain拓展性
已有方法:No Questions-Answers Training(使用问题图生成问题,构造无意义的答案)
参考文献:[1] CVPR 2020 VQA with No Questions-Answers Training -
组合泛化
已有方法:NMNs、neural factor graphs
参考文献:[1] NeurlPS 2020 Multimodal Graph Networks for Compositional Generalization in Visual Question Answering
[2] CVPR 2016 Neural Module Networks
主流框架
①. 使用faster rcnn提取图片中的regions
②. 使用LSTM/Transformer对question进行encode
③. 跨模态交互,得到answer
常用数据集
- CLEVR,合成数据集,是由一些简单的几何形状构成的视觉场景。数据集中的问题总是需要一长串的推理过程,为了对推理能力进行详细评估,所有问题分为了5类:属性查询(querying attribute),属性比较(comparing attributes),存在性(existence),计数(counting),整数比较(integer comparison)。
下载链接
论文原文 - VQA v1,人工标注的开放式问答数据集,但是VQAv1有很多类语言偏见(bias)。
下载链接
论文原文 - VQA v2,人工标注的开放式问答数据集,相较于VQAv1尽量减少了语言偏见(为每个问题补充了图片),但是仍存在一些偏见。
下载链接
论文原文 - VQA-CP v2,该数据集通过将VQA 2.0的训练集和验证集重新划分,得到新的训练集和测试集,包含219K张图像数据、658K条问题数据、6.6M答案数据。
下载链接
论文原文 - FVQA,该数据集不仅有图像和QA pairs,还有外部知识(extra knowledge),知识库有193, 449个事实句子,包含图像2190张,问题5826个,整个数据集分成了5个train/test集,每个集合包含1100张训练图像和1090张测试图像,分别有2927和2899个问题,问题总共可以分成32类。
下载链接
论文原文 - COCO-QA,QA pairs是由NLP算法生成的,图像来自COCO数据集,一共有78736个训练QA pairs和38948个测试QA pairs,大部分的问题是关于图像中的目标(69.84%),其他问题是关于颜色(16.59%),计数(7.47%),位置(6.10%)。所有问题的答案都是一个单词,只有435个独一无二的答案。数据集最大的缺点在于QA pairs是用NLP算法生成的,是将长句子划分成短句子处理的,这就忽视了句子中的语法和从句问题,算法结果不够智能;另外,数据集只有4类问题。
下载链接
论文原文 - TDIUC,该数据集尝试解决语言偏见,将问题分成了12类。
下载链接
论文原文 - Visual Genome,包含图像108077张和1445233个QA Pairs,图像来源是YFCC100M和COCO数据集,共有约540万张图像中的区域描述信息,这些信息能够达到精细的语义层次,问题类型是6W(what, where, how, when, who, why),数据集并没有对训练和测试数据进行切分。QA的收集有两种方法,一种是随意人为提问(会出现相似问题或对图像全局内容提问),另一种是针对图像中的特定区域提问。该数据集中没有二值类问题。
下载链接
论文原文 - Visual7W,是Visual Genome的一个子集,包含47,300张图像。Visual7W的问题主要由What, Where, How, When, Who,Why, and Which构成。Visual7W的问题是多选问题,每个问题都有四个候选答案。
下载链接
论文原文 - GQA,2019年提出的数据集,其dataset bias低,重视推理能力和组合式语言理解能力,提出了新的metric(Consistency、Validity、Plausibility、Distribution、Grounding)。
下载链接
论文原文 - VQA-Rephrasing,2019年提出的数据集,注重问题回答一致性。
下载链接
论文原文 - SQuINTing,2020年提出的数据集,将问题进行分类,有些问题需要回答“先验”问题,以保证模型回答的一致性。
下载链接
论文原文 - EST-VQA,2020年提出的场景文本数据集。
下载链接
论文原文
Metrics
- 准确率:有更细致的划分——Yes/No、Numbers、Others
- WUPS(n)(Wu-Palmer Similarity):根据两个单词在一个分类树中的最长公共子序列来计算相似性。如果预测单词和标准答案单词的相似性低于设定的阈值(n),则候选答案的评分为0。
- Consistency:考察模型回答问题的一致性,对于同一张图片的不同问题,回答不应该自相矛盾。
- Validity:考察模型回答问题的有效性,如颜色相关的问题,模型的回答应该是一种颜色。
- Plausibility:考察模型回答问题的合理性,如苹果有红色和绿色,但是没有紫色的,所以在问苹果颜色时,不能出现紫色的答案。
- Distribution:考察预测答案的分布与真实答案的分布之间的距离,如果模型只预测那些经常出现的答案,忽略出现次数少的答案,则此分数较低。
- Grounding:考察模型是否将attention放在了准确的区域。