Visual Question Answering概述

最新推荐文章于 2024-01-22 20:15:04 发布

NeverMoreH

最新推荐文章于 2024-01-22 20:15:04 发布

阅读量1.5k

点赞数 1

分类专栏： vision&language # visual question answering 文章标签：视觉问答 VQA

本文链接：https://blog.csdn.net/ms961516792/article/details/107518676

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

visual question answering

20 篇文章 3 订阅

订阅专栏

任务描述

输入：图片 $I$ 、由 $n$ 个单词组成的问题 $Q=\{ q_1,...,q_n \}$
输出：由 $m$ 个单词组成的问题的答案 $A=\{ a_1,...,a_m \}$

应用领域

盲人导航
图灵测试

主要问题

鲁棒性差
模型的鲁棒性差可多个方面体现，如缺乏可解释性、回答不一致等。造成这个问题的原因也是多方面的，如训练集和测试集的分布不同、语言先验等。所以鲁棒性差算是一个比较笼统、大范围的概念。
已有方法：反事实、迁移学习、场景图等（太多方法可以提高模型的鲁棒性了）
参考文献：[1] CVPR 2020 Towards Causal VQA Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing
可解释性
已有方法：关系推理、场景图
参考文献：[1] CVPR 2019 Explainable and Explicit Visual Reasoning over Scene Graphs
[2] ICCV 2019 Language-Conditioned Graph Networks for Relational Reasoning
回答一致性
已有方法：新数据集VQA-Rephrasings、SQuINTing
参考文献：[1] CVPR2019 Cycle-Consistency for Robust Visual Question Answering
[2] CVPR 2020 SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions
训练集和测试集分布不一致（衍生问题：出现out-of-vocabulary answer）
已有方法：使用Self-Critical Reasoning提高influential objects的sensitivity、迁移学习、反事实
参考文献：[1] CVPR 2019 Self-Critical Reasoning for Robust Visual Question Answering
[2] CVPR 2019 Transfer Learning via Unsupervised Task Discovery
[3] CVPR 2020 Counterfactual Samples Synthesizing for Robust Visual Question Answering
语言先验
已有方法：问题分解
参考文献：[1] AAAI 2020 Overcoming Language Priors in VQA via Decomposed Linguistic Representations
[2] CVPR 2018 Dont just assume; look and answer: Overcoming priors for visual question answering
跨模态交互（新视角）
已有方法：转化为机器阅读理解任务、提取不同模态信息的summarizations
参考文献：[1] CVPR 2019 Visual Question Answering as Reading Comprehension
[2] ICCV 2019 Multi-modality Latent Interaction Network for Visual Question Answering
domain拓展性
已有方法：No Questions-Answers Training（使用问题图生成问题，构造无意义的答案）
参考文献：[1] CVPR 2020 VQA with No Questions-Answers Training
组合泛化
已有方法：NMNs、neural factor graphs
参考文献：[1] NeurlPS 2020 Multimodal Graph Networks for Compositional Generalization in Visual Question Answering
[2] CVPR 2016 Neural Module Networks

主流框架

①. 使用faster rcnn提取图片中的regions
②. 使用LSTM/Transformer对question进行encode
③. 跨模态交互，得到answer

常用数据集

CLEVR，合成数据集，是由一些简单的几何形状构成的视觉场景。数据集中的问题总是需要一长串的推理过程，为了对推理能力进行详细评估，所有问题分为了5类：属性查询（querying attribute），属性比较（comparing attributes），存在性（existence），计数（counting），整数比较（integer comparison）。
下载链接
 论文原文
VQA v1，人工标注的开放式问答数据集，但是VQAv1有很多类语言偏见（bias）。
下载链接
 论文原文
VQA v2，人工标注的开放式问答数据集，相较于VQAv1尽量减少了语言偏见（为每个问题补充了图片），但是仍存在一些偏见。
下载链接
 论文原文
VQA-CP v2，该数据集通过将VQA 2.0的训练集和验证集重新划分，得到新的训练集和测试集，包含219K张图像数据、658K条问题数据、6.6M答案数据。
下载链接
 论文原文
FVQA，该数据集不仅有图像和QA pairs，还有外部知识（extra knowledge），知识库有193, 449个事实句子，包含图像2190张，问题5826个，整个数据集分成了5个train/test集，每个集合包含1100张训练图像和1090张测试图像，分别有2927和2899个问题，问题总共可以分成32类。
下载链接
 论文原文
COCO-QA，QA pairs是由NLP算法生成的，图像来自COCO数据集，一共有78736个训练QA pairs和38948个测试QA pairs，大部分的问题是关于图像中的目标（69.84%），其他问题是关于颜色（16.59%），计数（7.47%），位置（6.10%）。所有问题的答案都是一个单词，只有435个独一无二的答案。数据集最大的缺点在于QA pairs是用NLP算法生成的，是将长句子划分成短句子处理的，这就忽视了句子中的语法和从句问题，算法结果不够智能；另外，数据集只有4类问题。
下载链接
 论文原文
TDIUC，该数据集尝试解决语言偏见，将问题分成了12类。
下载链接
 论文原文
Visual Genome，包含图像108077张和1445233个QA Pairs，图像来源是YFCC100M和COCO数据集，共有约540万张图像中的区域描述信息，这些信息能够达到精细的语义层次，问题类型是6W（what, where, how, when, who, why），数据集并没有对训练和测试数据进行切分。QA的收集有两种方法，一种是随意人为提问（会出现相似问题或对图像全局内容提问），另一种是针对图像中的特定区域提问。该数据集中没有二值类问题。
下载链接
 论文原文
Visual7W，是Visual Genome的一个子集，包含47,300张图像。Visual7W的问题主要由What, Where, How, When, Who,Why, and Which构成。Visual7W的问题是多选问题，每个问题都有四个候选答案。
下载链接
 论文原文
GQA，2019年提出的数据集，其dataset bias低，重视推理能力和组合式语言理解能力，提出了新的metric（Consistency、Validity、Plausibility、Distribution、Grounding）。
下载链接
 论文原文
VQA-Rephrasing，2019年提出的数据集，注重问题回答一致性。
下载链接
 论文原文
SQuINTing，2020年提出的数据集，将问题进行分类，有些问题需要回答“先验”问题，以保证模型回答的一致性。
下载链接
 论文原文
EST-VQA，2020年提出的场景文本数据集。
下载链接
 论文原文

Metrics

准确率：有更细致的划分——Yes/No、Numbers、Others
WUPS(n)（Wu-Palmer Similarity）：根据两个单词在一个分类树中的最长公共子序列来计算相似性。如果预测单词和标准答案单词的相似性低于设定的阈值(n)，则候选答案的评分为0。
Consistency：考察模型回答问题的一致性，对于同一张图片的不同问题，回答不应该自相矛盾。
Validity：考察模型回答问题的有效性，如颜色相关的问题，模型的回答应该是一种颜色。
Plausibility：考察模型回答问题的合理性，如苹果有红色和绿色，但是没有紫色的，所以在问苹果颜色时，不能出现紫色的答案。
Distribution：考察预测答案的分布与真实答案的分布之间的距离，如果模型只预测那些经常出现的答案，忽略出现次数少的答案，则此分数较低。
Grounding：考察模型是否将attention放在了准确的区域。

NeverMoreH

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
Visual Question Answering概述

目录任务描述应用领域主要问题主流框架常用数据集Metrics任务描述输入：图片III、由nnn个单词组成的问题Q={q1,...,qn}Q=\{ q_1,...,q_n \}Q={q1,...,qn}输出：由mmm个单词组成的问题的答案A={a1,...,am}A=\{ a_1,...,a_m \}A={a1,...,am}应用领域盲人导航图灵测试主要问题鲁棒性差模型的鲁棒性差可多个方面体现，如缺乏可解释性、回答不一致等。造成这个问题的原因也是多方面的，如训练集和测试集
复制链接

扫一扫

专栏目录