Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning(DS——NER识别(减少人工参与))

Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning

前言

使用无标注数据和命名实体识别字典:执行该任务的自然做法是使用字典扫描查询文本,并将与字典条目列表匹配的术语视为实体。
对于标注中出现的错误,一个直观的解决方案是使用字典标记的数据进一步执行监督或半监督学习。

文章贡献

(1)新的PU learning算法
(2)AdaSampling 算法,丰富字典。

Risk定义——基础部分

Risk Minimization

风险最小化:给定损失函数l和分类器f的基础上,计算risk值为:
Y的标签空间是{0,1},f(x)表示一个分类器。
在这里插入图片描述
使用经验损失R^估计损失:
在这里插入图片描述
通过损失函数最小化,更新模型参数。即argmin(R^)

Unbiased Positive-Unlabeled learning

风险计算可以使用:
π_n表示negative,π_p表示positive的比率。
在这里插入图片描述
进一步,根据概率公式:P(x)=P(y=1)*P(x|y=1)+P(y=0)*P(x|y=0)
将上式,negative部分,用all data的分布表示出来。

公式转化过程:
R ℓ = π n E X , Y = 0 ℓ ( f ( x ) , 0 ) + π p E X , Y = 1 ℓ ( f ( x ) , 1 ) , R_{\ell}=\pi_{n} \mathbb{E}_{\mathbf{X}, Y=0} \ell(f(\boldsymbol{x}), 0)+\pi_{p} \mathbb{E}_{\mathbf{X}, \mathrm{Y}=1} \ell(f(\boldsymbol{x}), 1), R=πnEX,Y=0(f(x),0)+πpEX,Y=1(f(x),1),
Π p = P ( Y = 1 ) \Pi_{p}=P(Y=1) Πp=P(Y=1)
Π n = P ( Y = 0 ) \Pi_{n}=P(Y=0) Πn=P(Y=0)
π n E X , Y = 0 ℓ ( f ( x ) , 0 ) = E X ℓ ( f ( x ) , 0 ) − π p E X , Y = 1 ℓ ( f ( x ) , 0 ) \begin{aligned} \pi_{n} \mathbb{E}_{\mathbf{X}, Y=0} \ell(f(\boldsymbol{x}), 0) &=\mathbb{E}_{\mathbf{X}} \ell(f(\boldsymbol{x}), 0) \\ &-\pi_{p} \mathbb{E}_{\mathbf{X}, \mathrm{Y}=1} \ell(f(\boldsymbol{x}), 0) \end{aligned} πnEX,Y=0(f(x),0)=EX(f(x),0)πpEX,Y=1(f(x),0)
计算推导,在计算期望时,
R ℓ = π p E X , Y = 1 ℓ ( f ( x ) , 1 ) + E X ℓ ( f ( x ) , 0 ) − π p E X , Y = 1 ℓ ( f ( x ) , 0 ) \begin{aligned} R_{\ell}=\pi_{p} \mathbb{E}_{\mathbf{X}, \mathrm{Y}=1} \ell(f(\boldsymbol{x}), 1)+\mathbb{E}_{\mathbf{X}} \ell(f(\boldsymbol{x}), 0) \\ &-\pi_{p} \mathbb{E}_{\mathbf{X}, \mathrm{Y}=1} \ell(f(\boldsymbol{x}), 0) \end{aligned} R=πpEX,Y=1(f(x),1)+EX(f(x),0)πpEX,Y=1(f(x),0)
继续推导为:
R ^ ℓ = 1 n u ∑ i = 1 n u ℓ ( f ( x i u ) , 0 ) + π p n p ∑ i = 1 n p ( ℓ ( f ( x i p ) , 1 ) − ℓ ( f ( x i p ) , 0 ) ) \begin{aligned} \hat{R}_{\ell} &=\frac{1}{n_{u}} \sum_{i=1}^{n_{u}} \ell\left(f\left(\boldsymbol{x}_{i}^{u}\right), 0\right)+\\ \frac{\pi_{p}}{n_{p}} \sum_{i=1}^{n_{p}}\left(\ell\left(f\left(\boldsymbol{x}_{i}^{p}\right), 1\right)-\ell\left(f\left(\boldsymbol{x}_{i}^{p}\right), 0\right)\right) \end{aligned} R^npπpi=1np((f(xip),1)(f(xip),0))=nu1i=1nu(f(xiu),0)+

PU learning的一致性

PU learning中,不仅要保证risk计算的无偏性还需要保证计算的一致性。
作者在这一块给出了一些证明公式。
最终的Risk计算公式为:
在这里插入图片描述

基于词典的伪标注

为了获得 D+,我们使用最大匹配算法 (Liu et al., 1994; Xue, 2003) 用 De 进行数据标注。这是一个贪婪的搜索例程(greedy search),遍历一个句子,试图从句子中的给定点开始,找到与字典中的条目匹配的最长字符串。该算法的一般过程总结在算法。 1. 在我们的实验中,我们直观地设置了上下文大小 k = 4
在这里插入图片描述

Build PU Learning Classifier

Word Representation: character-level representation(one-layer-convolution network)+word-level representation(Stanford’s GloVe word)+human designed features(allCaps、upperInitial、小写、mixedCaps、无信息-noinfo,类似于大小写特征)
之后将concat的特征,通过LSTM得到hidden state,特征表示为:
在这里插入图片描述
loss定义:
f(w|s)=sigmoid(w*e(w|s)+b)
risk计算:
l(f(w|s),y)=|y-f(w|s)|

训练过程中的经验损失定义为:
在这里插入图片描述
在这里插入图片描述
考虑到样本分布的不均衡性,作者在计算loss时,增加了weight项,将损失函数重新定义为:

在这里插入图片描述

Label Inference.

每个token可能被多个classifier预测为不同的type,选择highest prediction probability作为最终的type。

Adapted PU Learning for NER

对于一个预测的实体,如果它出现了 k 次,并且它在未标记数据集中的所有出现都被预测为实体,我们将在下一次迭代中将其添加到实体字典中

实验部分

• 我们提出的使用简单字典的方法的一般性能;
• 未标记数据大小的影响;
• 字典质量的影响,例如大小、数据标注精度和召回率;
• 以及 πp 估计的影响

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值