VQA论文2021CVPR

2021CVPR
VQA2021论文主要分成几个方面:
1)语言先验,泛化能力:CFVQA;GQA-OOD;How transfer
2)鲁棒性评估:Perception Matters;
3)新设定:
4)其他:TextVQA,OKVQA
5)数据集:多是Video QA
6)预训练:

Perception Matters: Detecting Perception Failures of VQA Models Using Metamorphic Testing

论文链接
代码

论文概述

高水平的推理一般需要执行多个感知子任务。对于VQA,仅仅使用准确率衡量模型的好坏,无法详细指出错误是来自于低水平的感知问题还是高水平的推理。本文引入MetaVQA,将图像和问题分别转换成子问题和子图像,衡量VQA模型的感知能力。

方法

在这里插入图片描述
Question-Oriented MRs: 使用细粒度的目标检测器 O D f i n e OD_{fine} ODfine提取出目标和相应的属性;由于细粒度的提取的目标有较多的重叠,使用粗粒度的目标检测器定位目标,以进行图像的分割;

  • Object-/Property-Oriented Partitioning: 根据图像中目标识别的结果,合成可分解的计数问题,验证 V ( q , i ) = ∑ q ′ ∈ Q p a r V ( q ′ , i ) V(q,i)=\sum_{q'\in Q_{par}}V(q',i) V(q,i)=qQparV(q,i);注意在MetaVQA中仅仅将问题分成两个子问题验证就使得准确率下降;分解方法有Object-Oriented Partitioning:将问题q转换成计数两个单独的objects的数量;见下图;
    Property-Oriented Partitioning例子: Q : Q: Q:How many standing giraffes and lying giraffes are in the image?
    Q 1 : Q_1: Q1:“How many standing giraffes are in the image?”
    Q 2 : Q_2: Q2:“How many lying giraffes are in the image?”
    在这里插入图片描述
  • Object- and Property-Oriented Reordering: 将问题和属性调换位置;
  • Object- or Property-Oriented Reversion:问题反转,答案应该不同;

Image-Oriented MRs: 根据 O D c o a r s e OD_{coarse} ODcoarse得到一系列的目标,从而将图像进行分割成不相交的几部分;在不损坏图像其他目标的前提下,加入一些目标或者移除一些不相关的物体;增加一个问题所问的物体;

实验

对近几年的SOTA方法按照论文中的方法进行评估,结果如下:
在这里插入图片描述
方法中的+代表使用了train+val set,对于大部分的方法,增加训练数据反而会增加模型的错误率;BERT模型对于Insertion,partition,removal效果好的原因可能是将很多结果预测为0;Oscar模型将图像和问题进行对齐,可以增加对问题和图像的理解,因此效果算是可以的;

想法

2019,2020CVPR均有方法衡量模型的一致性,这篇论文将模型训练好以后,进行衡量,本质上也差不多;现在VQA论文比较少,大部分关注于模型的鲁棒性,提出新的评估方法,仅仅通过准确率可能无法反映模型真正的能力;而且仅仅通过简单的增加数据对模型效果的增加并不是很明显;

Separating Skills and Concepts for Novel Visual Question Answering

论文链接

论文简介

衡量VQA模型对新的合成问题的泛化能力,本文提出隐式分离技巧和概念的方法;
提出的新的评估设置:1)回答基于新的技巧和概念合成的问题;2)回答从未回答过的问题的答案;

AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning

在视频问答领域提出类似于GQA的数据集;

Predicting Human Scanpaths in Visual Question Answering

论文链接

Roses are Red, Violets are Blue… But Should VQA expect Them To?

论文概述

VQA模型很容易利用数据集中的统计误差,对于OOD数据和具有少量样本的数据效果不好。VQA-CP人工调整训练集和测试集中的答案分布,不能反映真实世界的趋势,同时由于没有验证集,得到的模型过度拟合于这种分布;本文提出GQA-OOD,认为稀少的问答对更能反映模型的推理能力;

构建方法

GQA-OOD:定义OOD样本为稀少的事件;与之前的train-val-test相比较,train set相同,val和test不同;
具有shifted子集构建步骤:1)将问题根据上下文进行分组;2)提取最不平衡的问题组考虑他们的答案分布;3)然后选择OOD样本;

希望和大家多交流,有错误的地方希望大家指出来呀!

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值