NER 数据漏标问题

虽然以前也遇到过NER漏标的问题,也采用了一些方法去处理,但是没有系统思考过这个问题,偶然发现的一篇博客,说到了这个问题,感觉讲解的比较全面,还有实验论证,分享给大家

ICLR2021 中唯一录取的NER论文:NER数据存在漏标怎么办?

细节我不再做介绍了,有兴趣可以去上面博客学习,说一下文章里比较有价值的一些结论。

一、 实体漏标影响

1. 实验论证,随着实体漏标比例的上升,模型效果会下降越来越明显, 下图可以看到,大概0.3以后开始下降越来越明显

2. 引入调节loss后(虚线部分),指标下降趋势趋缓,但是实体漏标比例很高时,指标仍然会明显下降 (调节loss的方法:将那些未标注实体loss不再参与计算。换句话说:未标注实体既不当作是正样本,也不当作负样本!啥也不是!)

说下我的一些额外理解(有问题请大家多多提出,一起交流): 

1. 第一点下降趋势来说,如果数据量级较大,可能是作者这个观点,如果数据量级较小,可能在实体漏召比例p更低的时候就开始快速下降的趋势;

 2. 第二点,调节loss,有点类似DSSM中只算证样本的loss逻辑差不多,这样可以避免漏标的问题,相当于给正样本更高的权重,忽略负样本的错误,虽然能起到一定的效果,但是也会带来一定的风险,存在漏标情况的时候可以尝试

二、 现有方法

 

preview

 

 自动抽取短语回标训练集:这种方式会依赖于远程监督,未标注实体问题仍然存在; (个人认为,这种方法可以一定程度上补充漏标,但是对于一些所有样本都没标注的实体效果不大,不过也是可以用一下的)

自训练:通过多轮迭代伪标自训练,这种方式计算费时,降噪过程不见得很work;(这种方法貌似是用数据训练模型回标,然后迭代的逻辑)

PU(positive-unlabeled) learning:为每个标签构建不同的二分类器。不过,未标注的实体仍然会影响相应实体类型的分类器;此外,该模型无法消除相邻实体的歧义。(这种,其实理解不太清,感觉只能避免漏标一种类型标签的情况,其它效果不会有多大提升)

Partial CRF:是CRF的拓展,改进CRF使其可以绕过未标注实体。但事实上,真正的负样本还是不可缺少的,因此该方法只用于高质量的数据集。

 

上面几种方法都基于CRF,CRF作为一个全局结构化预测问题,“未标注实体”噪声对NER的影响是全局的,“牵一发而动全身”啊。

三、 论文方法 

论文链接:https://arxiv.org/pdf/2012.05426.pdf

改变标注框架+负采样

模型框架

作者采用片段排列的方法,如下图所示,这种方法能与序列长度解耦,单独为每一个候选实体片段进行预测,打破了CRF全局结构化预测问题的限制,可以更加灵活处理复杂抽取、小样本、降噪问题。(但是这块,个人感觉,如果输入只采用候选实体片段的话,可能丢失一部分上下文信息)

文章基于BERT+softmax

 preview

负采样 

对所有非实体片段进行负采样

 通过负采样,可以将未标注实体当作负样本训练维持在一个很低水平

效果

 

四、 补充

补充一些之前的漏标问题用到的方法和经验

1. 交叉验证修改训练集,很多时候对于一些漏标问题,数据量较大的时候,模型训练的结果会比训练数据的质量要高,模型会自动平滑掉一些错误和噪声,其实有点类似于模型回标的方法。

2.  通过一些主动学习方法,进行标注数据选择,并通过模型进行预标注,减少标注量级

3. 远程监督,如果仅依靠词典进行远程监督,可能不太容易避免漏标问题,可以采用远程监督和数据增强的方式,比如近义词替换等。

 

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

微知girl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值