EMNLP 2020 | 通过Contrast Set评估模型的局部决策边界

本文提出通过构建对比集(Contrast Sets)来评估模型在自然语言处理任务中的局部决策边界。传统训练集与测试集的独立同分布假设可能导致模型泛化能力不足。作者通过toy example和真实案例展示了对比集如何揭示模型的局限性,并在DROP、NLVR2和UD Parsing数据集上展示了构建对比集的方法,结果显示对比集能有效降低SOTA模型的性能,提供更全面的评估。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|张一帆

学校|华南理工大学本科生

研究方向|CV,Causality

论文标题:

Evaluating Models' Local Decision Boundaries via Contrast Sets

论文链接:

https://arxiv.org/abs/2004.02709

数据集:

https://allennlp.org/contrast-sets

Main Contribution:训练集与测试集 i.i.d 的假设使得模型很难泛化,文章提出了在原始测试集构建 contrast test set 的方法,可以真实的评估模型的语言能力。


Motivation

这里用了一个 toy example 和一个真实示例来表示作者想要提出并解决的问题。

Toy Example

考虑二维的情况,下图中的两分类问题需要一个非常复杂的 decision boundary。

但是在很多情况下,由于采样的 biased,我们很可能得到如下的数据集:

网络通过一个很简单的 decision boundary 就可以将它们分类,而由于训练测试数据集独立同分布,虽然这个 decision boundary 非常差,但它在测试集表现得非常好。理想情况下,如果我们完整采样整个数据集,所有问题都迎刃而解,但这显然是很难做到的。为了正确的测试模型的能力,作者提出了对测试集做 perturbation 的方法:对测试集的每一个实例,我们生成一系列与之类似的测试样本(Contrast Set:下图中的灰色圆圈)。

Complex NLP Task

我们很难用图把 NLP task 中存在的问题进行描述,但是有很多工作支撑了这一观点。比较有意思的示例为在 SNLI 数据集中,表明单词"睡觉","电视"和"猫"几乎从来没有同时出现数据中,但是它们经常出现在 contradiction 的例子中。所以 model 很容易的学到“同时出现'睡觉'和'猫'的句子都是 contradiction sentence,并且这一分类标准工作得很好”。 

在初始数据收集过程中完全消除这些差距将是非常理想化的,在一个非常高维的空间中,语言有太多的可变性。相反,该文使用 Contrast Set 来填补测试数据中的空白,从而给出比原始数据提供的更全面的评估。

Contrast sets

假设我们现在为测试样本

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值