[nlp] LLS减少学习捷径:分析和缓解伪特征标签相关性

心心喵

已于 2022-07-15 18:51:37 修改

阅读量1.2k

点赞数 1

文章标签： nlp

于 2022-07-14 13:30:10 首次发布

本文链接：https://blog.csdn.net/Trance95/article/details/125779561

版权

LLS减少学习捷径:分析和缓解伪特征标签相关性

Less Learn Shortcut: Analyzing and Mitigating Learning of Spurious Feature-Label Correlation

0、Abstract

最近的许多研究表明，深度神经网络倾向于 采用数据集偏差作为决策依据，而不是 理解任务，这导致了实际应用的失败。在这项工作中，我们关注 特征和标签 之间的虚假相关性，这源于训练数据中的偏差数据分布，并对其进行了具体分析。特别是，我们将这个词定义为与特定的标签作为偏颇词高度共现，并将包含双基词的示例定义为偏颇示例。我们的分析表明，具有虚假相关性的有偏示例更易于模型学习，在预测时，有偏单词对模型的预测贡献显著高于其他单词，并且模型倾向于过度依赖单词和标签之间的虚假相关性来分配标签。

为了 克服模型对捷径的过度依赖，我们提出了一种训练策略-减少学习捷径（LLS）：我们量化 有偏示例的偏倚程度，并 用偏倚程度降低其权重。QM和NLI任务的实验结果表明，使用我们的LLS，该模型在域内和虚拟数据（DuQM和HANS分别为1.57%和2.12%）上都提高了性能。

1、Introduction 介绍

预训练的语言模型，例如BERT(2018)、ERNIE(2019)和RoBERTa(2019)，在许多自然语言处理任务上取得了巨大成功。然而，最近的研究表明，神经网络模型倾向于将数据集偏差作为捷径，而不是理解任务 (Schuster等人，2019；Niven和Kao，2019)。过度依赖捷径将导致 模型泛化能力差 和 对抗鲁棒性低 (Geirhos等人)。

在这项工作中，我们将重点关注特征和标签之间的虚假相关性，这避免了训练数据中有偏差的数据分布，并且往往被模型视为捷径。

捷径学习现象 在各种自然语言处理任务中得到了广泛的研究。以前的许多研究通过构建人工对抗性示例来检验这一现象，并采用高级数据增强来提高模型的鲁棒性。这些工作报告了人工对抗示例的高成功率，但尚不清楚它们在实际应用中的分布是否表现良好。此外，这些文章没有正式讨论捷径来自哪里。

最近的一些研究发现，捷径可以追溯到数据集偏差。例如，如果自然语言推理NLI任务中的大多数训练数据恰好与“not”相反，那么检测“not”而不是理解文本的语义就成为了一种成功的策略，从而在移位分布上产生了意想不到的性能。然而，它们中的大多数局限于关注特定于任务的快捷方式，这是禁止转移到其他任务的。

在这项工作中，我们正式讨论了简单特征（例如单词）和标签之间的相关性，这可能源于任何自然语言处理任务的有偏数据分布，以解释自然语言处理模型的 shortcut learning 行为。基于我们的分析，我们提出了一种训练无策略学习捷径（LLS），它与任务无关，可以提高模型在域内和虚拟数据上的性能。一些现有的著作对此进行了论证。

对于任何自然语言处理任务，任何单个特征本身都不应包含关于标签的信息，简单特征和标签之间的所有相关性都是虚假的（2021），并且 过度依赖简单特征和标签之间的虚假相关性将导致模型泛化能力差和对抗性低 。为了检验虚假特征-标签相关性，我们首先定义了两个定义：偏差词（biased word），它是与特定标签高度共存的词，以及偏差示例（biased example），它是包含至少一个偏差词的示例。然后，我们对问题匹配（QM）任务上的虚假特征标签相关性进行了分析，其中很少有研究系统地分析了捷径学习(shotcut learning)现象。基于我们的分析，我们提出了一种无训练策略学习捷径（LLS），利用该捷径，有偏训练示例根据其有偏程度进行加权，并且在微调过程中惩罚模型对有偏示例的过度依赖。我们在QM和NLI任务上进行了大量实验，以评估我们的训练策略，结果表明，使用这些模型可以提高域内和虚拟数据的性能，并且这种训练策略可以很容易地转移到不同的NLP任务。

一般来说，我们有以下主要发现和贡献：

• 我们观察到 有偏示例 比其他单词更容易学习，有偏单词 对模型预测的贡献显著高于随机单词我们发现有偏词会影响模型的预测，模型倾向于分配与有偏词高度相关的标签（见第3.2节）为了 缓解模型对虚假相关性的过度依赖，我们提出了一种 训练策略LLS（training strategy Less Learn Shortcut，LLS）。实验结果表明，LLS可以提高模型在域内和对抗数据上的性能，并且它是任务不可知的，可以很容易地转换到其他任务。

• 在这一部分中，我们首先介绍了QM数据集，分析了虚假特征-标签相关性，然后给出了 biased word 和 biasted example的定义。最后，我们提供了我们的实验设置。

2、Preliminary 准备工作

在这一部分中，我们首先介绍了QM数据集，分析了虚假特征-标签相关性，然后给出了biased word 和 biasted - example的定义。最后，我们提供了我们的实验设置。

2.1 数据集

我们对三个数据集 LCQMC、DuQM 和 OPPO1 进行了分析，所有这些数据集都是关于QM任务的，并且是从真实的word应用程序中收集的。LCQMC（Liu等，2018）是哈尔滨工业大学在《白都之道》杂志上提出的一个大规模中文问题匹配语料库。DuQM（Zhu等人，2021）是一个细粒度受控对抗数据集，旨在评估QM模型的稳健性，并基于从BaiduSearch Engine2收集的查询生成。OPPO收集自OPPO XiaoBu对话应用程序，可下载至CCF大数据与计算智能Con测试。选项卡中提供了数据统计信息。

2.2 定义

在这里，我们提供了我们将在这项工作中使用的定义。如果我们表示数据集中的所有单词，则包含特定单词的示例集可以形式化为 S(wi)，wi 的频率可以形式化为 $f_{w_i}$ 。我们定义 biased degree 偏置程度 $d_{wi}^{cm}$ 作为测量 单词wi 与 类别cm 同时出现的程度 (对于QM任务，cm∈(0,1))，可以表示为

其中 |S(wi，cm)| 表示带wi 和带cm 标记的样本数。

P.S.

数据集可以下载到 https://luge.ai.2 http://www.baidu.com.

单词是最小的独立词汇项目，具有自己的客观或实际意义。我们采用了《汉语词法分析》(Jiao et al.， 2018) (https://github.com/baidu/lac) 的前向分词方法。

偏置词: 与数据集中特定标签高度相关的词。

为QM任务，我们把 biased word 定义为：

频数>3 和偏置程度>=0.8 的词 $f_{w_i} > 3$ 和 $d_{wi}^{cm} \geq 0.8$ 。

我们进一步将 偏置词biased_0 和 偏置词biased_1 定义为与 类别 0 和 1 高度相关的词。

在 表格10 中，"简便"（“handy”）出现在35个示例中，其中33个属于类别1，所以是一个有偏见的词。

表1 显示27.24%（15864/58230）的词是有偏见的词，LCQMCtrain中有更多的 偏置词biased_0 而不是 偏置词biased_1 。

有偏见的例子。包含至少一个有偏见的词的例子。如 Tab 2 所示，41.15%的 LCQMC 训练集示例是有偏示例，在 LCQMCtest、DuQM 和 OPPO 中分别为25.97%、32.25%和24.98%。由于LCQMC训练集中几乎一半的例子中都出现了偏词，因此研究它们对模型的影响是有意义的。

无偏示例：没有偏词的例子被定义为 无偏示例 unbiased example。

2.3 实验

Models

三个模型上设置实验：

BERT-base ，ERNIE1.0 ，RoBERTa-large

https://github.com/google-research/bert.5https://github.com/PaddlePaddle/ERNIE.6

https://github.com/ymcui/Chinese-BERT-wwm.7

https://huggingface.co/docs/transformers/.

Metrics

与大多数分类任务一样，我们使用准确性 acc 来评估模型的性能。

Training details

我们使用来自拥抱脸的集成 inter-face BertForSequenceClassification 进行实验，并 对不同预训练模型使用不同的学习率。

具体来说，对于 RoBERTa_large 来说，学习率 lr 是 5e-6。

Rorbert_Base 和 ERNIE_1.0，学习率 lr 设置为 2e-5。

衰减率 decay的比例为 0.01。我们训练了足够的时间，并确保模型符合要求。

每个模型在 LCQMCtrain 上使用不同的种子进行五次微调。

每500步，我们在 LCQMC_train 上检查模型的性能，选择精度最高的模型，并在LCQMCtest、DUQM 和 OPPO上报告平均结果。

3 特征标签相关性对模型的影响

第二节的数据统计显示，41.15%的例子包含有偏的词汇。

这是一个合理的假设：伪特征标签相关性会影响模型的行为和性能。

为了验证我们的假设:

1)我们对模型的学习和决定进行了行为分析(见第3.1节);

2)在第3.2节，我们讨论 特征-标签相关性 如何影响模型的性能，通过探究有偏词和预测标签之间的关系。

在第3.3节中，我们讨论了另一种类型的 shotcut ——word_overlap重叠，并认为不同的shortcut 可以相互作用来给出最终的预测。

3.1 特征标签相关性和模型的行为

模型学习

为了观察模型在训练过程中的行为，我们将 LCQMC_train 分为两个子集，有偏示例和无偏示例，并将训练示例按3个顺序重新组织：

偏见前置 bias-first：首先是有偏示例，然后是无偏示例。

偏见后置 bias-last：首先是无偏示例，然后是有偏示例。

随机顺序 random-order：随机洗牌示例。

🌟 我们在上述三个阶中微调了三个模型（BERT、ERNIE and RoBERTa），并在图1中绘制了训练损耗曲线。所有三个模型的训练损失曲线呈现相同的趋势：

• 如果 bias-first，对于每个epoch，损失曲线的下降比 随机顺序 更快。在学习了所有有偏示例后，损耗曲线略微上升，然后下降。

• 如果 bias-last ，趋势是相反的: 对于每个epoch，损失下降比随机顺序慢，直到所有无偏的例子都已经学习，然后曲线下降更快。

上述观察结果反映出模型在学习有偏例子和无偏例子时的行为-拥有是不同的:有偏例子的损失曲线比其他例子下降得更剧烈，这表明与特定标签高度相关的单词相对更容易被模型学习，单词和标签之间的相关性是模型学习的捷径。

Models’ deciding 模型的决定

在这一部分中，我们定量分析了 虚假特征标签相关性 在决策过程中对模型行为的影响。如果模型更容易学习，那么 有偏见的词在预测时会做出更大的贡献吗 ？

在这里，我们选择 LIME 方法（Ribeiroet al.，2016）作为工具来 测量最终预测的一个输入中不同单词的贡献，该方法可以 在给定预测周围局部近似模型的基础上解释模型的预测。

为了观察测试示例中有偏词的贡献，我们使用 LIME极限法 计算贡献分数，根据贡献分数对单词进行排序。

在图2中，我们展示了在三个测试集中具有最高、第二、第三和第四贡献的偏词的比率。为了进行比较，我们随机选择了相同大小的词，不包括停止词，并在图2中绘制了它们的比率。与随机词相比，有偏词在最高的4个词中所占比例显著更高，在 LCQMCtestand 和 DuQM中约为80%，在 OPPO 中为68%。

总之，有偏的例子更容易在模型中学习，有偏词比随机词的贡献显著更高，这意味着模型在决定时往往更倾向于对有偏的词施加压力。

在这一部分的分析中，我们可以得出结论，有偏词是模型的shortcut，会影响模型的行为。因此，有必要进一步分析其对模型的影响。

3.2 特征标签相关性和模型的预测标签

研究 shortcut 的现有工作侧重于验证各种数据集和任务中是否存在 shortcut。然而，很少有定量分析来讨论 shortcut 如何准确影响模型的预测结果。在这一部分中，我们将重点探讨有偏词和预测标签之间的关系，以分析虚假特征标签相关性如何影响模型。由于偏向词与特定标签高度相关，因此模型倾向于指定与偏向词高度相关的标签是合理的猜测。

尽管有偏见的词往往有助于预测（在第3.1节中讨论），但并非所有有偏见的词在预测过程中都有很大的贡献。为了更好地分析有偏词对预测标签（predictedlabel）的影响，我们重点分析了有偏词贡献最大的测试示例，其中有偏词的影响更为显著。为了方便起见，我们 将有偏词贡献最大的示例定义为焦点偏向示例 focus-biased-examples，并在选项卡中给出了偏向示例和焦点偏向示例的统计信息。

为了衡量模型预测的趋势，我们将 T_cm定义为模型预测类别cm的趋势。

测试用例中

真实标签为C_m的个数为｜S_true(C_m)｜，

预测标签为C_m的个数为｜S_pred(C_m)｜。

我们计算了模型对“正常”偏差示例 $T_{cm}$ 和 焦点偏差示例的预测趋势 $T_{cm}^{focus}$ 。图3(a) 至图3(c) 显示了偏置字对三个测试集的影响。

在DuQM (图3(b))中，三个模型的 $T_0^{focus}$ 明显高于 $T_0$ 5%-7%，

这意味着当贡献最大的词(焦点词) 是偏向类别为0的偏倚词，模型有很高的趋势预测为类别 0 。LCQMCtest中显示了相同的结果(图3(a))。

偏置程度 (biased degree [d]) 最大是否意味着贡献最大？？

然而，在OPPO上， $T_0$ 略高于 $T_0^{focus}$ （0.01～0.02）。我们认为它是受另一条 shortcut 的共同影响，我们提供了一个广泛的实验来讨论它。在 3.3.节, 图3（d）至图3（f）显示了偏向类别为1的偏置词的影响。

如图3(f) 所示，在OPPO上的偏向类别为1的有偏词 word_1上，模型在集中时倾向于预测类别为1，三个模型之间的 $T_1^{focus}$ 平均比T1高16%。三种模型在DuQM上的比较结果不一致。在LCQMC test上， $T_1^{focus}$ 高于1，与BERT和RoBERTa一样。

总的来说，我们观察到，当模型更加关注偏向词时，他们倾向于依赖偏向词来分配标签。此外，为了探究为什么在OPPO上0的趋势不明显 (图3(c))，我们进一步讨论了另一个shortcut :

word - overlap 短词重叠的影响。

对于带 word_0 (偏向0类别的贡献最大的偏倚词) 的示例 examples，相对于未筛选的examples，基于我们的假设，模型更趋向于预测为0类别。但这在oppo中未成立，我们继续讨论原因，引入word-overlap的shortcut。

word_0示例的0类别趋势为 $T_{0}^{focus}$ ，所有示例的0类别趋势为 $T_0$ 。

3.3 单词重叠：QMmodels的另一个shortcut

在现实场景中，模型的决策机制很复杂。不同的捷径可能相互作用，形成最终预测。在这里，我们认为QM模型也受到文字重叠的影响。单词重叠是一种捷径，在许多YMRC和NLI著作中已经讨论过（McCoy等人，2019；Lai等人，2021；Kaushik和Lipton，2018）。

对于 QMtask，如果 句子对 有 低单词重叠overlap，即 它们之间几乎没有公共单词，则 模型倾向于预测0，反之亦然。

正如OPPO的结果显示在Tab 3中。即使模型关注贡献最大的偏向0类别的焦点词word_0，模型倾向于0类别也不显著。我们将这种现象归因于QM任务中的 word-overlap shortcut。

为了 消除单词重叠的影响，我们设计了一个实验，在这个实验中，问题对是高单词重叠high-word-overlap的。

overlapping degree : 我们使用Levenshtein编辑距离来测量重叠度。

我们在 Table 3 中报告了模型的 短编辑距离预测趋势。

结果表明，与“正常”有偏示例相比，模型对焦点有偏示例的预测倾向更高，这表明如果我们试图消除单词重叠快捷方式，模型倾向于预测0类别。

具体来说，与“正常”偏差示例相比，编辑距离为1的三个模型的平均 $T_0^{focus}$ 增加了0.039，即编辑距离为2、3、4和5时，分别为0.024、0.018、0.022和0.018。样本重叠越小，特征标签相关性的影响越显著。

样本重叠小时，模型更倾向于相信该标签代表了某类别。

通常，我们可以推断模型倾向于依赖特征标签相关技巧来分配标签。在消除单词重叠的影响后，OPPO数据集中，模型向 0类别的预测趋势变得显著。

除了本研究中的相关性，NLP模型还受到许多其他 shortcut 的影响，它们共同影响模型的行为。

4. Learn Less Shortcut 少学捷径：缓解模型过度依赖特征-标签相关性的训练策略

在第3节中，我们观察到，模型倾向于过度依赖纯特征标签相关性来分配标签。为了缓解模型的捷径学习行为，我们提出了一种训练策略-少学捷径（LLS）。缓解短时干扰的现有方法包括数据增强（Jin等人，2020；Alzantot等人，2018）、对抗训练（Staceyet等人，2020），这些方法在构建的对抗测试集上实现了改进，并且与任务相关。我们提出的LLS是任务不可知的，在微调过程中，所有有偏差的训练示例都会根据其快捷度（将在第4.1节中描述）进行惩罚。

4.1 重新加权有偏示例

为了缓解模型对特征标签相关性的过度依赖，一个简单的想法是 降低有偏示例的权重，从而防止模型拟合虚假相关性，并 强制学习语义特征。

🌟 量化相关性的影响

在第二节，我们定义了 偏倚程度 bias degree 来衡量单词 wi 和标签 cm 之间的相关性，这可以帮助我们量化相关性的影响。我们利用 一个词对所有类别的最大偏倚程度值（C代表类别空间）。

此外，一些现有研究表明，训练数据中 单词的出现 也会影响模型的预测（Gu等人，2020；Cui等人，2016；Ott等人，2018）。我们考虑了 偏倚度 和词频，并制定了有偏词的影响：

其中 $f_{w_i}$ 表示训练数据中出现单词的频率，α是一个权衡因子。然后，偏差示例的影响 可以计算为 其包含的所有偏差词的平均影响：

🌟 考虑单词重叠的影响

在第二节，我们观察到，单词重叠是 句子对任务 中的另一条 shortcut：

模型倾向于对 高单词重叠的句子对 进行 正向预测 和 低单词重叠的句子对 进行 负向预测。考虑到单词重叠的影响，当两个 shortcut 在一个有偏示例8中冲突时，我们只考虑 最小偏倚度的有偏单词的影响。

为什么冲突时用最小偏倚度？

🌟 计算损失权重 Calculate the loss weight

我们用 最小-最大归一化 对 [0,1] 中的所有有偏示例进行了重新缩放。有偏示例的损失权重可以表示为以下内容，其中具有较高偏倚程度 $b_e$ 的有偏样本将被分配较小的损失权重（体现在负号）：

其中 β 用于调整归一化区间的下限，上限固定为1。值得注意的是，我们只对有偏示例重新加权，无偏示例的损失权重为1。

4.2 实验结果

我们考虑两项任务来评估LLS的效果：

QM任务

我们使用2.3节中介绍的实验设置 在 QMtask上进行实验。

在表格4，baseline是首先在LCQMC train上对模型进行微调，然后在三个测试集上对其进行评估。

在表格4，如果我们根据第二节中引入的 损失权重 对模型进行微调，Row LLS将显示模型的性能。4.1（等式4、6和7）。

与基线相比，LLS 在所有三个测试集上提高了模型的准确性，在域内测试集 LCQMC test 提升为0.88%，在对抗数据集DuQM上为1.57%。

为了更好地研究LLS不同成分的贡献，我们将LLS与两种 消融实验 进行比较：

LLS_d 仅使用 偏倚度 来衡量相关性的影响，而不考虑单词重叠的影响（等式3、5和7）；

LLS_d+f 同时考虑了偏倚度 和词频来测量相关性，但也没有考虑词重叠的影响（等式4、5和7）

在LCQMC测试和DuQM上，LLS表现最好，这表明词频和词重叠的约束具有积极的影响。在OPPO上，是否考虑单词重叠在结果上没有显著差异，这可能归因于缺乏与该测试集重叠的shortcut单词。

NLI任务

我们考虑的第二个任务是自然语言推理。NLI任务旨在 确定两个句子之间的关系，前提句是否包含假设句。

它通常表示为一个多分类问题。在我们的实验中，我们尝试了两个NLI数据集作为训练集，SNLI（Bow man等人，2015）和MNLI（Williams等人，2017）。

表格5和6 给出了SNLI train 和 MNLI train的统计。

尽管 SNLI train 中只有 2.96% 是有偏见的文字，但它们出现在 77.42% 的例子中。

与SNLI train相比，MNLI train相对无偏，仅包含202个偏倚词 0.22% 和 21516个有偏示例（5.48%）。

我们首先在SNLI train上进行实验。我们对 SNLI train上的模型进行了微调，并在域内测试集SNLI test and Responsial测试集 HANStest上评估了模型。SNLI是一个包含蕴涵、中立和对立三类的数据集。Hans是一个两类数据集，包含和非包含。正如之前的工作所做的那样（McCoy等人，2019），为了评估HANS test上的模型，我们将中性或矛盾标签转换为非蕴涵。

实验结果如图所示。虽然我们的策略对域内SNLI test的影响不显著，但在 对抗集HANS test上有改进，BERT为2.12%，ERNIE为1.52%，Roberta为1.02%。

MNLI train的结果如表所示。与SNLItrain的结果相比，LLS 对 MNLI train没有影响。我们认为我们的战略更适合于具有偏差数据分布的训练集，以帮助模型学习伪相关。总之，我们提出的LLS可以提高模型在域内和通用数据上的性能，这意味着它有利于模型的泛化能力和对抗性。LLS是一种任务无关的训练策略，可以很容易地转移到其他自然语言处理任务中。

5 结论

在本文中，我们探讨了模型特征和标签之间虚假相关性的shorcut learning的行为，并提出了一种 损失函数加权纠偏的训练策略，以缓解NLP模型对快捷方式的过度依赖。具体来说，我们观察到，这些模型容易学习虚假相关性，并且有偏词对模型预测的贡献显著高于随机词。此外，我们观察到，模型往往被有偏见的词误导，以指定标签。为了缓解对偏差的过度依赖，我们提出了一种训练策略来惩罚模型的快捷学习行为。实验结果表明，LLS可以提高模型在域内和对抗性数据上的性能，并且它是任务不可知的，可以很容易地转移到其他任务。在未来的研究中，我们将探索如何更好地测量和形式化训练数据中的快捷方式，并将其概括为一类问题。

心心喵

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
[nlp] LLS减少学习捷径:分析和缓解伪特征标签相关性

最近的许多研究表明，深度神经网络倾向于采用数据集偏差作为决策依据，而不是理解任务，这导致了实际应用的失败。在这项工作中，我们关注特征和标签之间的虚假相关性，这源于训练数据中的偏差数据分布，并对其进行了具体分析。特别是，我们将这个词定义为与特定的标签作为偏颇词高度共现，并将包含双基词的示例定义为偏颇示例。我们的分析表明，具有虚假相关性的有偏示例更易于模型学习，在预测时，有偏单词对模型的预测贡献显著高于其他单词，并且模型倾向于过度依赖单词和标签之间的虚假相关性来分配标签。为了克服模型对
复制链接

扫一扫