NER 数据漏标问题

最新推荐文章于 2023-02-10 13:24:06 发布

微知girl

最新推荐文章于 2023-02-10 13:24:06 发布

阅读量1.1k

点赞数 2

分类专栏： # NER 文章标签：自然语言处理 NER

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/katrina1rani/article/details/113767094

版权

NER 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

虽然以前也遇到过NER漏标的问题，也采用了一些方法去处理，但是没有系统思考过这个问题，偶然发现的一篇博客，说到了这个问题，感觉讲解的比较全面，还有实验论证，分享给大家

ICLR2021 中唯一录取的NER论文：NER数据存在漏标怎么办？

细节我不再做介绍了，有兴趣可以去上面博客学习，说一下文章里比较有价值的一些结论。

一、实体漏标影响

1. 实验论证，随着实体漏标比例的上升，模型效果会下降越来越明显，下图可以看到，大概0.3以后开始下降越来越明显

2. 引入调节loss后（虚线部分），指标下降趋势趋缓，但是实体漏标比例很高时，指标仍然会明显下降（调节loss的方法：将那些未标注实体loss不再参与计算。换句话说：未标注实体既不当作是正样本，也不当作负样本！啥也不是！）

说下我的一些额外理解（有问题请大家多多提出，一起交流）：

1. 第一点下降趋势来说，如果数据量级较大，可能是作者这个观点，如果数据量级较小，可能在实体漏召比例p更低的时候就开始快速下降的趋势；

2. 第二点，调节loss，有点类似DSSM中只算证样本的loss逻辑差不多，这样可以避免漏标的问题，相当于给正样本更高的权重，忽略负样本的错误，虽然能起到一定的效果，但是也会带来一定的风险，存在漏标情况的时候可以尝试

二、现有方法

preview

自动抽取短语回标训练集：这种方式会依赖于远程监督，未标注实体问题仍然存在；（个人认为，这种方法可以一定程度上补充漏标，但是对于一些所有样本都没标注的实体效果不大，不过也是可以用一下的）

自训练：通过多轮迭代伪标自训练，这种方式计算费时，降噪过程不见得很work；（这种方法貌似是用数据训练模型回标，然后迭代的逻辑）

PU(positive-unlabeled) learning：为每个标签构建不同的二分类器。不过，未标注的实体仍然会影响相应实体类型的分类器；此外，该模型无法消除相邻实体的歧义。（这种，其实理解不太清，感觉只能避免漏标一种类型标签的情况，其它效果不会有多大提升）

Partial CRF：是CRF的拓展，改进CRF使其可以绕过未标注实体。但事实上，真正的负样本还是不可缺少的，因此该方法只用于高质量的数据集。

上面几种方法都基于CRF，CRF作为一个全局结构化预测问题，“未标注实体”噪声对NER的影响是全局的，“牵一发而动全身”啊。

三、论文方法

论文链接：https://arxiv.org/pdf/2012.05426.pdf

改变标注框架+负采样

模型框架

作者采用片段排列的方法，如下图所示，这种方法能与序列长度解耦，单独为每一个候选实体片段进行预测，打破了CRF全局结构化预测问题的限制，可以更加灵活处理复杂抽取、小样本、降噪问题。（但是这块，个人感觉，如果输入只采用候选实体片段的话，可能丢失一部分上下文信息）

文章基于BERT+softmax

preview

负采样

对所有非实体片段进行负采样

通过负采样，可以将未标注实体当作负样本训练维持在一个很低水平。

效果

四、补充

补充一些之前的漏标问题用到的方法和经验

1. 交叉验证修改训练集，很多时候对于一些漏标问题，数据量较大的时候，模型训练的结果会比训练数据的质量要高，模型会自动平滑掉一些错误和噪声，其实有点类似于模型回标的方法。

2. 通过一些主动学习方法，进行标注数据选择，并通过模型进行预标注，减少标注量级

3. 远程监督，如果仅依靠词典进行远程监督，可能不太容易避免漏标问题，可以采用远程监督和数据增强的方式，比如近义词替换等。

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
NER 数据漏标问题

虽然以前也遇到过NER漏标的问题，也采用了一些方法去处理，但是没有系统思考过这个问题，偶然发现的一篇博客，说到了这个问题，感觉讲解的比较全面，还有实验论证，分享给大家ICLR2021 中唯一录取的NER论文：NER数据存在漏标怎么办？细节我不再做介绍了，有兴趣可以去上面博客学习，说一下文章里比较有价值的一些结论。一、实体漏标影响1.实验论证，随着实体漏标比例的上升，模型效果会下降越来越明显，下图可以看到，大概0.3以后开始下降越来越明显2.引入调节loss后（虚线部分），指标下降...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

微知girl 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。