
©PaperWeekly 原创 · 作者|张一帆
学校|华南理工大学本科生
研究方向|CV,Causality

论文标题:
Evaluating Models' Local Decision Boundaries via Contrast Sets
论文链接:
https://arxiv.org/abs/2004.02709
数据集:
https://allennlp.org/contrast-sets
Main Contribution:训练集与测试集 i.i.d 的假设使得模型很难泛化,文章提出了在原始测试集构建 contrast test set 的方法,可以真实的评估模型的语言能力。

Motivation
这里用了一个 toy example 和一个真实示例来表示作者想要提出并解决的问题。
Toy Example
考虑二维的情况,下图中的两分类问题需要一个非常复杂的 decision boundary。

但是在很多情况下,由于采样的 biased,我们很可能得到如下的数据集:

网络通过一个很简单的 decision boundary 就可以将它们分类,而由于训练测试数据集独立同分布,虽然这个 decision boundary 非常差,但它在测试集表现得非常好。理想情况下,如果我们完整采样整个数据集,所有问题都迎刃而解,但这显然是很难做到的。为了正确的测试模型的能力,作者提出了对测试集做 perturbation 的方法:对测试集的每一个实例,我们生成一系列与之类似的测试样本(Contrast Set:下图中的灰色圆圈)。

Complex NLP Task
我们很难用图把 NLP task 中存在的问题进行描述,但是有很多工作支撑了这一观点。比较有意思的示例为在 SNLI 数据集中,表明单词"睡觉","电视"和"猫"几乎从来没有同时出现数据中,但是它们经常出现在 contradiction 的例子中。所以 model 很容易的学到“同时出现'睡觉'和'猫'的句子都是 contradiction sentence,并且这一分类标准工作得很好”。
在初始数据收集过程中完全消除这些差距将是非常理想化的,在一个非常高维的空间中,语言有太多的可变性。相反,该文使用 Contrast Set 来填补测试数据中的空白,从而给出比原始数据提供的更全面的评估。

Contrast sets
假设我们现在为测试样本
本文提出通过构建对比集(Contrast Sets)来评估模型在自然语言处理任务中的局部决策边界。传统训练集与测试集的独立同分布假设可能导致模型泛化能力不足。作者通过toy example和真实案例展示了对比集如何揭示模型的局限性,并在DROP、NLVR2和UD Parsing数据集上展示了构建对比集的方法,结果显示对比集能有效降低SOTA模型的性能,提供更全面的评估。
最低0.47元/天 解锁文章
1901

被折叠的 条评论
为什么被折叠?



