论文笔记|Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning

期待成功

已于 2022-12-15 01:39:20 修改

阅读量1.3k

点赞数 2

分类专栏：笔记文章标签：自然语言处理

于 2021-05-22 09:23:23 首次发布

本文链接：https://blog.csdn.net/u011150266/article/details/117148935

版权

该论文探讨了一种使用无标记数据和命名实体字典进行命名实体识别（NER）的正无标记（PU）学习方法。通过定义PU学习问题，论文提出了一种新的算法，能在无偏且一致的情况下估计任务损失。方法减少了对高质量词典的依赖，适用于简单的词典。实验表明，该方法在多个NER数据集上表现优于基于词典的匹配和其他PU学习方法，且对字典质量和πp的估计具有一定的鲁棒性。

摘要由CSDN通过智能技术生成

作者：任
单位：燕山大学

论文简介

论文来源：ACL2019
论文地址
 源码地址
在该论文中，研究了仅使用无标记的数据和命名实体字典，来进行命名实体识别(NER)的方法。为此，该文将任务定义为一个正无标记(positive-unlabeled, PU)学习问题，并据此提出了一种新的PU学习算法，可以无偏且一致地估计任务损失，效果如同有全标记数据。
该方法的创新点在于使用半监督的方式进行NER，它不要求词典标注句子中的每个实体，甚至不要求词典标注构成一个实体的所有单词。这大大降低了对词典质量的要求，使其能够很好地适用于非常简单的词典。

问题的引出

监督方法在NER上取得了巨大的成功。然而，监督方法通常需要大规模的细粒度注释，使得难以应用于标记较少的领域，如生物/医学领域。该论文探索了仅使用无标记数据和命名实体字典进行NER的方法。
NER很自然的方法，即使用字典扫描文本，并匹配其中的实体。然而，这种方法需要非常高质量的命名实体字典。如下图所示，若字典质量较低，则该方法效果很差
在这里插入图片描述
为了解决这个问题，一个直观的方法是使用字典标记的数据进一步进行监督或半监督学习。但是，由于它不能保证词典涵盖了一个句子内的所有实体词(实体的词)，所以不能简单地将未被词典标记的单词视为非实体词。这时，传统的监督或半监督学习算法并不适用，因为它们通常需要所有类的标注数据。