Visual Question Answering概述

部分数据集介绍摘自这篇博客

任务描述

  • 输入:图片 I I I、由 n n n个单词组成的问题 Q = { q 1 , . . . , q n } Q=\{ q_1,...,q_n \} Q={q1,...,qn}
  • 输出:由 m m m个单词组成的问题的答案 A = { a 1 , . . . , a m } A=\{ a_1,...,a_m \} A={a1,...,am}

应用领域

  • 盲人导航
  • 图灵测试

主要问题

  • 鲁棒性差
    模型的鲁棒性差可多个方面体现,如缺乏可解释性、回答不一致等。造成这个问题的原因也是多方面的,如训练集和测试集的分布不同、语言先验等。所以鲁棒性差算是一个比较笼统、大范围的概念。
    已有方法:反事实、迁移学习、场景图等(太多方法可以提高模型的鲁棒性了)
    参考文献:[1] CVPR 2020 Towards Causal VQA Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing

  • 可解释性
    已有方法:关系推理、场景图
    参考文献:[1] CVPR 2019 Explainable and Explicit Visual Reasoning over Scene Graphs
                     [2] ICCV 2019 Language-Conditioned Graph Networks for Relational Reasoning

  • 回答一致性
    已有方法:新数据集VQA-Rephrasings、SQuINTing
    参考文献:[1] CVPR2019 Cycle-Consistency for Robust Visual Question Answering
                     [2] CVPR 2020 SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions

  • 训练集和测试集分布不一致(衍生问题:出现out-of-vocabulary answer)
    已有方法:使用Self-Critical Reasoning提高influential objects的sensitivity、迁移学习、反事实
    参考文献:[1] CVPR 2019 Self-Critical Reasoning for Robust Visual Question Answering
                     [2] CVPR 2019 Transfer Learning via Unsupervised Task Discovery
                     [3] CVPR 2020 Counterfactual Samples Synthesizing for Robust Visual Question Answering

  • 语言先验
    已有方法:问题分解
    参考文献:[1] AAAI 2020 Overcoming Language Priors in VQA via Decomposed Linguistic Representations
                     [2] CVPR 2018 Dont just assume; look and answer: Overcoming priors for visual question answering

  • 跨模态交互(新视角)
    已有方法:转化为机器阅读理解任务、提取不同模态信息的summarizations
    参考文献:[1] CVPR 2019 Visual Question Answering as Reading Comprehension
                     [2] ICCV 2019 Multi-modality Latent Interaction Network for Visual Question Answering

  • domain拓展性
    已有方法:No Questions-Answers Training(使用问题图生成问题,构造无意义的答案)
    参考文献:[1] CVPR 2020 VQA with No Questions-Answers Training

  • 组合泛化
    已有方法:NMNs、neural factor graphs
    参考文献:[1] NeurlPS 2020 Multimodal Graph Networks for Compositional Generalization in Visual Question Answering
                     [2] CVPR 2016 Neural Module Networks

主流框架

①. 使用faster rcnn提取图片中的regions
②. 使用LSTM/Transformer对question进行encode
③. 跨模态交互,得到answer

常用数据集

  • CLEVR,合成数据集,是由一些简单的几何形状构成的视觉场景。数据集中的问题总是需要一长串的推理过程,为了对推理能力进行详细评估,所有问题分为了5类:属性查询(querying attribute),属性比较(comparing attributes),存在性(existence),计数(counting),整数比较(integer comparison)。
    下载链接
    论文原文
  • VQA v1,人工标注的开放式问答数据集,但是VQAv1有很多类语言偏见(bias)。
    下载链接
    论文原文
  • VQA v2,人工标注的开放式问答数据集,相较于VQAv1尽量减少了语言偏见(为每个问题补充了图片),但是仍存在一些偏见。
    下载链接
    论文原文
  • VQA-CP v2,该数据集通过将VQA 2.0的训练集和验证集重新划分,得到新的训练集和测试集,包含219K张图像数据、658K条问题数据、6.6M答案数据。
    下载链接
    论文原文
  • FVQA,该数据集不仅有图像和QA pairs,还有外部知识(extra knowledge),知识库有193, 449个事实句子,包含图像2190张,问题5826个,整个数据集分成了5个train/test集,每个集合包含1100张训练图像和1090张测试图像,分别有2927和2899个问题,问题总共可以分成32类。
    下载链接
    论文原文
  • COCO-QA,QA pairs是由NLP算法生成的,图像来自COCO数据集,一共有78736个训练QA pairs和38948个测试QA pairs,大部分的问题是关于图像中的目标(69.84%),其他问题是关于颜色(16.59%),计数(7.47%),位置(6.10%)。所有问题的答案都是一个单词,只有435个独一无二的答案。数据集最大的缺点在于QA pairs是用NLP算法生成的,是将长句子划分成短句子处理的,这就忽视了句子中的语法和从句问题,算法结果不够智能;另外,数据集只有4类问题。
    下载链接
    论文原文
  • TDIUC,该数据集尝试解决语言偏见,将问题分成了12类。
    下载链接
    论文原文
  • Visual Genome,包含图像108077张和1445233个QA Pairs,图像来源是YFCC100M和COCO数据集,共有约540万张图像中的区域描述信息,这些信息能够达到精细的语义层次,问题类型是6W(what, where, how, when, who, why),数据集并没有对训练和测试数据进行切分。QA的收集有两种方法,一种是随意人为提问(会出现相似问题或对图像全局内容提问),另一种是针对图像中的特定区域提问。该数据集中没有二值类问题。
    下载链接
    论文原文
  • Visual7W,是Visual Genome的一个子集,包含47,300张图像。Visual7W的问题主要由What, Where, How, When, Who,Why, and Which构成。Visual7W的问题是多选问题,每个问题都有四个候选答案。
    下载链接
    论文原文
  • GQA,2019年提出的数据集,其dataset bias低,重视推理能力和组合式语言理解能力,提出了新的metric(Consistency、Validity、Plausibility、Distribution、Grounding)。
    下载链接
    论文原文
  • VQA-Rephrasing,2019年提出的数据集,注重问题回答一致性。
    下载链接
    论文原文
  • SQuINTing,2020年提出的数据集,将问题进行分类,有些问题需要回答“先验”问题,以保证模型回答的一致性。
    下载链接
    论文原文
  • EST-VQA,2020年提出的场景文本数据集。
    下载链接
    论文原文

Metrics

  • 准确率:有更细致的划分——Yes/No、Numbers、Others
  • WUPS(n)(Wu-Palmer Similarity):根据两个单词在一个分类树中的最长公共子序列来计算相似性。如果预测单词和标准答案单词的相似性低于设定的阈值(n),则候选答案的评分为0。
  • Consistency:考察模型回答问题的一致性,对于同一张图片的不同问题,回答不应该自相矛盾。
  • Validity:考察模型回答问题的有效性,如颜色相关的问题,模型的回答应该是一种颜色。
  • Plausibility:考察模型回答问题的合理性,如苹果有红色和绿色,但是没有紫色的,所以在问苹果颜色时,不能出现紫色的答案。
  • Distribution:考察预测答案的分布与真实答案的分布之间的距离,如果模型只预测那些经常出现的答案,忽略出现次数少的答案,则此分数较低。
  • Grounding:考察模型是否将attention放在了准确的区域。
  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值