论文笔记|Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning

该论文探讨了一种使用无标记数据和命名实体字典进行命名实体识别(NER)的正无标记(PU)学习方法。通过定义PU学习问题,论文提出了一种新的算法,能在无偏且一致的情况下估计任务损失。方法减少了对高质量词典的依赖,适用于简单的词典。实验表明,该方法在多个NER数据集上表现优于基于词典的匹配和其他PU学习方法,且对字典质量和πp的估计具有一定的鲁棒性。
摘要由CSDN通过智能技术生成

作者:任
单位:燕山大学

论文简介

论文来源:ACL2019
论文地址
源码地址
在该论文中,研究了仅使用无标记的数据和命名实体字典,来进行命名实体识别(NER)的方法。为此,该文将任务定义为一个正无标记(positive-unlabeled, PU)学习问题,并据此提出了一种新的PU学习算法,可以无偏且一致地估计任务损失,效果如同有全标记数据。
该方法的创新点在于使用半监督的方式进行NER,它不要求词典标注句子中的每个实体,甚至不要求词典标注构成一个实体的所有单词。这大大降低了对词典质量的要求,使其能够很好地适用于非常简单的词典。

问题的引出

监督方法在NER上取得了巨大的成功。然而,监督方法通常需要大规模的细粒度注释,使得难以应用于标记较少的领域,如生物/医学领域。该论文探索了仅使用无标记数据和命名实体字典进行NER的方法。
NER很自然的方法,即使用字典扫描文本,并匹配其中的实体。然而,这种方法需要非常高质量的命名实体字典。如下图所示,若字典质量较低,则该方法效果很差
在这里插入图片描述
为了解决这个问题,一个直观的方法是使用字典标记的数据进一步进行监督或半监督学习。但是,由于它不能保证词典涵盖了一个句子内的所有实体词(实体的词),所以不能简单地将未被词典标记的单词视为非实体词。这时,传统的监督或半监督学习算法并不适用,因为它们通常需要所有类的标注数据。

为此,该文提出将任务定义为正无标记(PU)学习问题,并引入一种新的PU学习算法来进行该任务:有标记的实体词形成正§数据,其余的形成无标记(U)数据,用于PU学习。该算法可以无偏且一致地估计任务损失,前提是标记的P数据可以揭示P类的数据分布。

由于字典只覆盖了部分实体,它不能完全揭示实体词的数据分布。为了解决这个问题,又基于AdaSampling提出了一种自适应方法来扩充字典。

预备

风险最小化

在这里插入图片描述

无偏性

这里用条件概率,证明了只需要用无标签的正例就能无偏地预测 R l R_l Rl 无偏性即,样本统计量的数学期望等于被估计的总体参数的值。

无偏 正-无标签学习(uPU)旨在在只有一组正例和一组无标记例时估计 R l R_l Rl R l R_l Rl也可以表示为
在这里插入图片描述
其中, π p = P ( Y = 1 ) , π n = P ( Y = 0 ) π_p= P(Y =1), π_n= P(Y = 0) πp=P(Y=1)πn=P(Y=0) E X , Y = 1 l ( f ( x ) , 1 ) E_{X,Y=1}l(f(x),1) EX,Y=1

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值