【EMNLP 2021】Learning from Noisy Labels for Entity-Centric Information Extraction

原文链接:https://arxiv.org/abs/2104.08656
代码:https://github.com/wzhouad/NLL-IE


Abstract & Intro

本文从一个现象入手,很多的数据集存在标注错误(例如CoNLL03),深度神经模型很容易过拟合噪声标签,遭受性能下降。而过滤有噪声的标签非常昂贵,最近的研究表明噪声标签需要更多的训练步骤来记忆,比干净的标签更容易被遗忘,基于这些特性作者提出了一个简单的实体正则化信息抽取框架,它由几个结构相同但参数初始化不同的神经模型组成以防止对噪声标签的过拟合。并在NER与信息抽取的数据集TACRED和CoNLL03上进行的广泛实验,证明了我们的框架的有效性。

作者目标是开发一个通用的去噪框架,可以很容易地合并现有的监督学习模型,前人(Arpit等人,2017;Toneva等人,2019年)工作的证明,噪声标签往往有延迟的学习曲线,因为错误标记的实例更有可能与模型捕获的归纳偏差相矛盾。因此,有噪声的标签实例需要更长的时间才能被神经模型获取,并且在后期经常被遗忘。因此,模型往往对这种情况存在预测问题。因此,我们提出了一个简单而有效的共正则化框架来处理有噪声的训练标签,
本文贡献:

  1. 我们提出了一个通用的共正则化框架,可以有效地学习有监督的噪声数据集模型,而不需要任何额外的学习资源。
  2. 我们详细讨论了框架的不同设计策略以及效率和有效性之间的权衡。
  3. 在NER和RE上的大量实验表明,我们的框架在各种SOTA模型上产生了有希望的改进,并优于现有的去噪框架。

method

作者的的框架由两个或多个具有相同结构但初始化不同的分类器组成。在训练中,所有的分类器都在训练数据上进行,并针对预测概率分布与ground truth之间的(KL)散度的一致性损失上优化。然后,对于分类器的预测与标签不一致的情况,一致性损失会鼓励分类器给出与其他分类器相似的预测,而不是当前的这个分类器预测的(可能是有噪声的)标签。通过这种方式,该框架可以防止合并的分类器过拟合噪声标签。
image

image

式1计算模型预测标签的概率分布

image

式2计算预测标签分布与真实标签分布的KL散度

image

式3通过二者散度,计算出一致性的loss。算法流程所表述的思路也与上述类似。

算法核心思路:该框架下合并的分类器warm up 后,一旦模型打出的预测软标签与真实标签存在分布差异时(即预测错误),就会在原本的loss后面叠加上一个通过二者KL散度计算的Lagg来回传。该框架的主要学习目标是优化联合损失L=LT+γLagg,其中γ是一个正的超参数,LT是任务特定分类损失Lsup的平均值(交叉熵损失)
这种联合训练可以解释为一种“软修剪”方案。对于模型的预测通常接近标签的干净标签,协议损失和梯度都很小,所以它们对训练的影响很小。而对于模型预测与训练标签不一致的噪声标签,一致性损失在训练中产生了较大的梯度,从而防止了模型对噪声标签的过拟合。


Exp

image
结果对比加入软修剪与不加软修剪的实验结果

总结:这篇解决的是训练阶段的去噪,但却是从减小噪声数据影响模型的角度出发,理论公式很多,核心思想还是训练中一旦遇到预测标签概率分布与真实标签概率分布差距较大时,这个数据就被界定为噪声数据,并通过Lagg来惩罚它以减小这类数据的影响。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值