Named Entity Recognition with Partially Annotated Training Data(ACL2019)

1. Introduction

在一些语料资源匮乏的语种中,可用的数据可能只是部分标注的(部分NE正确标注,部分NE被标注为O),如下图所示:
在这里插入图片描述

其中标签为NE的token可视为positive instance,标签为O的的token被视为negtive instance,被错分为O的NE就称为False Negative。本文提出了一种基于约束驱动的迭代算法(constraint-driven iterative algorithm)来学习发现噪声数据中的Negative False样例并降低他们的权重,从而降低噪声在训练时对NER模型的影响。

2. Content

2.1 Constrained Binary Learning

本文提出的方法称为CBL,与之相似的已有工作为CoDL:Constraint Driven Learning(Chang et al, 2007)。该方法的目的是对所有标记为O的tokens赋予一个权重,false negative的具有较低(接近0)的权重,而其它O则具有较高的权重(接近1)。

解决训练样本中带有噪声的方法一般有两种:
(1)找到false negative样例并更正他们的标签。
(2)找到false negative样例并剔除他们。
本文采用了第(2)种方法,这是由于O标签的token在训练数据集中占据多数,即使错误地剔除一部分O也不会造成明显负面影响。

CBL分为两个阶段:
(1)模仿CoDL,采用约束循环算法训练一个二元分类器 λ \lambda λ,训练流程是一个train-predict-infer循环,如下所示:

(2)使用训练好的二元分类器 λ \lambda λ对每个样例赋予权重,公式如下:

v i = { 1.0 i f   x i ∈ P P λ ( y i = O ∣ x i ) i f   x i ∈ N v_i= \begin{cases} 1.0 & if \ x_i \in P\\ P_\lambda(y_i=O|x_i) & if \ x_i \in N\\ \end{cases} vi={1.0Pλ(yi=Oxi)if xiPif xiN

2.2 NER with CBL

本文的一个贡献是上述流程的inference step(第6行),使用了Integer Linear Program(ILP),其中约束是基于实体比例b(entity ratio),公式为:
b = ∣ P ∣ ∣ P ∣ + ∣ N ∣ b = \frac{|P|}{|P| + |N|} b=P+NP
已有工作显示,在fully-annotated数据集中实体率一般为 0.09 ± 0.05 0.09 \pm 0.05 0.09±0.05

对于带权重的训练集,实体率可用如下公式计算:
b = ∣ P ∣ ∣ P ∣ + ∑ i ∈ N v i b = \frac{|P|}{|P| + \sum_{i \in N}v_i} b=P+iNviP
还可以通过乘于一个 γ \gamma γ因子来修改实体率,公式如下:
b ∗ = ∣ P ∣ ∣ P ∣ + γ ∑ i ∈ N v i b^* = \frac{|P|}{|P| + \gamma\sum_{i \in N}v_i} b=P+γiNviP
可计算 γ \gamma γ为:
γ = ( 1 − b ∗ ) ∣ P ∣ b ∗ ∑ i ∈ N v i \gamma = \frac{(1-b^{*})|P|}{b^*\sum_{i \in N}v_i} γ=biNvi(1b)P
为了获得目标实体率 b ∗ b^* b,我们可以将 N N N中样例权重乘于放缩因子 γ \gamma γ,得到:
v ∗ = γ v i v^* = \gamma v_i v=γvi

2.3 Constraints and Stopping Condition

约束条件ILP如下图所示:
在这里插入图片描述

等式(8)中 y 0 i y_{0i} y0i y 1 i y_{1i} y1i分别表示token i i i对应的是negative还是positive标签。 C 0 i C_{0i} C0i C 1 i C_{1i} C1i根据二元分类器 λ \lambda λ的最后一次预测分数得到。 δ \delta δ表示允许较小的软间隔, ξ ≥ 0.99 \xi \geq 0.99 ξ0.99

2.4 NER Models

NER模型使用了以下两种:
(1)非神经网络模型:Cogcomp NER(Ratinov and Roth, 2009; Khashabi et al., 2018),使用了Ratinov and D. Roth. 2009. Design challenges and misconceptions in named entity recognition中的特征,更改了权重更新公式:
w = w + α v i y i ( w T x i ) \textbf{w} = \textbf{w} + \alpha v_iy_i(\textbf{w}^Tx_i) w=w+αviyi(wTxi)
(2)神经网络模型:基于BiLSTM-CRF,为了将权重加入到CRF训练中,参考了Zhanming Jie, et al. 2019. Better modeling of incomplete annotations for named entity recognition的方法,公式如下:

3. Datasets

使用了如下8中语言的数据集,并根据以下两种人工扰动(Artificial Perturbation)策略模拟噪声:
(1)降低recall,通过将某些实体全部替换成O得到,直到得到满足要求的recall;
(2)降低precision,在随机的起始位置并且选择随机1-3的长度作为一个NE,直到得到满足要求precision。
在这里插入图片描述

4. Summary

本文提出了一种基于约束驱动的迭代算法CBL对部分标注数据赋予权重,以降低错误分类的Negative False样例在训练NER模型时的影响。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值