『论文笔记』Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions

Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions


一句话总结


本文提出一个基于反事实数据增强的用来评估鲁棒性的指标RAD,简而言之,就是把问题换种问法看模型还能回答正确吗。


导论


Motivation:

目前为止,在分布变化的鲁棒性方面还没有提出任何度量方法measure。


Contribution:

本文提出一个可以将VQA模型对分布偏移的鲁棒性表示出来的基于一致性的度量方法measure,名为RAD(Robustness to Augmented Data)。

基于CADs(counterfactual data augmentations 反事实数据增强),旨在保留其他所有信息的同时操作某个特定的属性,我们便可以评估模型对属性改变的鲁棒性。


方法


RAD指标

数据集D中的每个样本均生成一个增强数据,得到一个一一对应的被修改数据集D’。

RAD评估 修改前后均正确回答的问题 占 正确回答的原问题 的比例,即

RAD公式

RAD越大,模型的鲁棒性越好。

RAD与准确率是独立的两个评价指标,比如有的模型可能表现很糟,但是却能在回答正确的问题里保持一致性。


数据增强

举例:对于问题“What color is the vehicle? Red”,可以转化为“Is the color of the vehicle red? Yes”。

对于回答正确的原问题,我们希望模型也能回答正确它的增强问题。

基于模板的数据增强方法:

基于模板的数据增强方法

生成过程为半自动,先人工指定模板(对询问color的问题使用第一个模板),再生成增强问题。

为了避免数据集中存在很多与增强问题问同一个语义属性(颜色、数量)的问题,从而导致对鲁棒性的评估不够纯粹,本文选择VQA数据集中很少出现的问 color、number of objects、object types 的问题进行生成。

模板覆盖了11%的VQA样本。


实验


RAD实验结果

通过上图可以看到,VQA-CP模型的鲁棒性普遍弱于VQA模型,这表明尽管他们在试图设计更鲁棒的模型,VQA-CP模型仍然过拟合训练数据。

BT和Reph的高RAD值可能表明,只要答案不变,VQA模型对语言变化(回译、改写)确实是鲁棒的

VisualBERT是表里唯一一个使用上下文词嵌入的模型,显现出了最强的鲁棒性。

VisDial的两个模型准确率相近,但是在Y/N<-C(颜色类)上的鲁棒性差异很大,表明RAD这一评估方法是有助于区分两个相似模型的。

值得注意的是,增强数据不用于训练,仅用于测试。

可能得出的结论:
VQA-CP模型可能只是在拟合一个反向的语言偏置
答案不变时,VQA模型对语言变化鲁棒
预训练模型学习到的上下文词嵌入对鲁棒性有帮助


换个角度思考,这个指标似乎更侧重于评估VQA模型对语言的理解能力,有着海量语料加持的预训练模型确实效果更佳,那是否也表示这个指标并不能有效区分预训练模型呢?

准确率实验结果

RUBi虽然准确率比CSS低很多,但是RAD却反过来高出很多,作者认为这强调了RAD作为一种补充指标的重要性,因为在这种情况下只考虑准确率会产生误导。

换句话说,RAD为模型选择提供了额外的关键信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值