EMNLP 2020 | 通过Contrast Set评估模型的局部决策边界

最新推荐文章于 2024-07-31 13:14:03 发布

PaperWeekly

最新推荐文章于 2024-07-31 13:14:03 发布

阅读量510

点赞数

文章标签：人工智能机器学习深度学习计算机视觉数据分析

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/113855564

版权

本文提出通过构建对比集(Contrast Sets)来评估模型在自然语言处理任务中的局部决策边界。传统训练集与测试集的独立同分布假设可能导致模型泛化能力不足。作者通过toy example和真实案例展示了对比集如何揭示模型的局限性，并在DROP、NLVR2和UD Parsing数据集上展示了构建对比集的方法，结果显示对比集能有效降低SOTA模型的性能，提供更全面的评估。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者｜张一帆

学校｜华南理工大学本科生

研究方向｜CV，Causality

论文标题：

Evaluating Models' Local Decision Boundaries via Contrast Sets

论文链接：

https://arxiv.org/abs/2004.02709

数据集：

https://allennlp.org/contrast-sets

Main Contribution：训练集与测试集 i.i.d 的假设使得模型很难泛化，文章提出了在原始测试集构建 contrast test set 的方法，可以真实的评估模型的语言能力。

Motivation

这里用了一个 toy example 和一个真实示例来表示作者想要提出并解决的问题。

Toy Example

考虑二维的情况，下图中的两分类问题需要一个非常复杂的 decision boundary。

但是在很多情况下，由于采样的 biased，我们很可能得到如下的数据集：

网络通过一个很简单的 decision boundary 就可以将它们分类，而由于训练测试数据集独立同分布，虽然这个 decision boundary 非常差，但它在测试集表现得非常好。理想情况下，如果我们完整采样整个数据集，所有问题都迎刃而解，但这显然是很难做到的。为了正确的测试模型的能力，作者提出了对测试集做 perturbation 的方法：对测试集的每一个实例，我们生成一系列与之类似的测试样本（Contrast Set：下图中的灰色圆圈）。

Complex NLP Task

我们很难用图把 NLP task 中存在的问题进行描述，但是有很多工作支撑了这一观点。比较有意思的示例为在 SNLI 数据集中，表明单词"睡觉"，"电视"和"猫"几乎从来没有同时出现数据中，但是它们经常出现在 contradiction 的例子中。所以 model 很容易的学到“同时出现'睡觉'和'猫'的句子都是 contradiction sentence，并且这一分类标准工作得很好”。

在初始数据收集过程中完全消除这些差距将是非常理想化的，在一个非常高维的空间中，语言有太多的可变性。相反，该文使用 Contrast Set 来填补测试数据中的空白，从而给出比原始数据提供的更全面的评估。