作者:任
单位:燕山大学
文章目录
论文简介
论文来源:ACL2019
论文地址
源码地址
在该论文中,研究了仅使用无标记的数据和命名实体字典,来进行命名实体识别(NER)的方法。为此,该文将任务定义为一个正无标记(positive-unlabeled, PU)学习问题,并据此提出了一种新的PU学习算法,可以无偏且一致地估计任务损失,效果如同有全标记数据。
该方法的创新点在于使用半监督的方式进行NER,它不要求词典标注句子中的每个实体,甚至不要求词典标注构成一个实体的所有单词。这大大降低了对词典质量的要求,使其能够很好地适用于非常简单的词典。
问题的引出
监督方法在NER上取得了巨大的成功。然而,监督方法通常需要大规模的细粒度注释,使得难以应用于标记较少的领域,如生物/医学领域。该论文探索了仅使用无标记数据和命名实体字典进行NER的方法。
NER很自然的方法,即使用字典扫描文本,并匹配其中的实体。然而,这种方法需要非常高质量的命名实体字典。如下图所示,若字典质量较低,则该方法效果很差
为了解决这个问题,一个直观的方法是使用字典标记的数据进一步进行监督或半监督学习。但是,由于它不能保证词典涵盖了一个句子内的所有实体词(实体的词),所以不能简单地将未被词典标记的单词视为非实体词。这时,传统的监督或半监督学习算法并不适用,因为它们通常需要所有类的标注数据。
为此,该文提出将任务定义为正无标记(PU)学习问题,并引入一种新的PU学习算法来进行该任务:有标记的实体词形成正§数据,其余的形成无标记(U)数据,用于PU学习。该算法可以无偏且一致地估计任务损失,前提是标记的P数据可以揭示P类的数据分布。
由于字典只覆盖了部分实体,它不能完全揭示实体词的数据分布。为了解决这个问题,又基于AdaSampling提出了一种自适应方法来扩充字典。
预备
风险最小化
无偏性
这里用条件概率,证明了只需要用无标签的正例就能无偏地预测 R l R_l Rl。 无偏性即,样本统计量的数学期望等于被估计的总体参数的值。
无偏 正-无标签学习(uPU)旨在在只有一组正例和一组无标记例时估计 R l R_l Rl。 R l R_l Rl也可以表示为
其中, π p = P ( Y = 1 ) , π n = P ( Y = 0 ) π_p= P(Y =1), π_n= P(Y = 0) πp=P(Y=1),πn=P(Y=0)。 E X , Y = 1 l ( f ( x ) , 1 ) E_{X,Y=1}l(f(x),1) EX,Y=1