Named Entity Recognition with Partially Annotated Training Data（ACL2019）

最新推荐文章于 2024-01-25 01:54:24 发布

Mecthew

最新推荐文章于 2024-01-25 01:54:24 发布

阅读量254

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/m0_37584687/article/details/114812503

版权

论文笔记专栏收录该内容

5 篇文章 1 订阅

订阅专栏

1. Introduction

在一些语料资源匮乏的语种中，可用的数据可能只是部分标注的（部分NE正确标注，部分NE被标注为O），如下图所示：
在这里插入图片描述

其中标签为NE的token可视为positive instance，标签为O的的token被视为negtive instance，被错分为O的NE就称为False Negative。本文提出了一种基于约束驱动的迭代算法（constraint-driven iterative algorithm）来学习发现噪声数据中的Negative False样例并降低他们的权重，从而降低噪声在训练时对NER模型的影响。

2. Content

2.1 Constrained Binary Learning

本文提出的方法称为CBL，与之相似的已有工作为CoDL：Constraint Driven Learning（Chang et al, 2007）。该方法的目的是对所有标记为O的tokens赋予一个权重，false negative的具有较低（接近0）的权重，而其它O则具有较高的权重（接近1）。

解决训练样本中带有噪声的方法一般有两种：
（1）找到false negative样例并更正他们的标签。
（2）找到false negative样例并剔除他们。
本文采用了第（2）种方法，这是由于O标签的token在训练数据集中占据多数，即使错误地剔除一部分O也不会造成明显负面影响。

CBL分为两个阶段：
（1）模仿CoDL，采用约束循环算法训练一个二元分类器 $\lambda$ ，训练流程是一个train-predict-infer循环，如下所示：

（2）使用训练好的二元分类器 $\lambda$ 对每个样例赋予权重，公式如下：

$v_i= \begin{cases} 1.0 & if \ x_i \in P\\ P_\lambda(y_i=O|x_i) & if \ x_i \in N\\ \end{cases}$

2.2 NER with CBL

本文的一个贡献是上述流程的inference step（第6行），使用了Integer Linear Program（ILP），其中约束是基于实体比例b（entity ratio），公式为：
$\frac{|P|}{|P| + |N|}$
已有工作显示，在fully-annotated数据集中实体率一般为 $0.09 \pm 0.05$ 。

对于带权重的训练集，实体率可用如下公式计算：
$\frac{|P|}{|P| + \sum_{i \in N}v_i}$
还可以通过乘于一个 $\gamma$ 因子来修改实体率，公式如下：
$b^* = \frac{|P|}{|P| + \gamma\sum_{i \in N}v_i}$
可计算 $\gamma$ 为：
$\gamma = \frac{(1-b^{*})|P|}{b^*\sum_{i \in N}v_i}$
为了获得目标实体率 $b^*$ ，我们可以将 $N$ 中样例权重乘于放缩因子 $\gamma$ ，得到：
$v^* = \gamma v_i$

2.3 Constraints and Stopping Condition

约束条件ILP如下图所示：
在这里插入图片描述

等式（8）中 $y_{0i}$ 和 $y_{1i}$ 分别表示token $i$ 对应的是negative还是positive标签。 $C_{0i}$ 和 $C_{1i}$ 根据二元分类器 $\lambda$ 的最后一次预测分数得到。 $\delta$ 表示允许较小的软间隔， $\xi \geq 0.99$ 。

2.4 NER Models

NER模型使用了以下两种：
（1）非神经网络模型：Cogcomp NER(Ratinov and Roth, 2009; Khashabi et al., 2018)，使用了Ratinov and D. Roth. 2009. Design challenges and misconceptions in named entity recognition中的特征，更改了权重更新公式：
$\textbf{w} = \textbf{w} + \alpha v_iy_i(\textbf{w}^Tx_i)$
（2）神经网络模型：基于BiLSTM-CRF，为了将权重加入到CRF训练中，参考了Zhanming Jie, et al. 2019. Better modeling of incomplete annotations for named entity recognition的方法，公式如下：

3. Datasets

使用了如下8中语言的数据集，并根据以下两种人工扰动（Artificial Perturbation）策略模拟噪声：
（1）降低recall，通过将某些实体全部替换成O得到，直到得到满足要求的recall；
（2）降低precision，在随机的起始位置并且选择随机1-3的长度作为一个NE，直到得到满足要求precision。
在这里插入图片描述

4. Summary

本文提出了一种基于约束驱动的迭代算法CBL对部分标注数据赋予权重，以降低错误分类的Negative False样例在训练NER模型时的影响。

Mecthew

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Named Entity Recognition with Partially Annotated Training Data（ACL2019）

1. Introduction在一些语料资源匮乏的语种中，可用的数据可能只是部分标注的（部分NE正确标注，部分NE被标注为O），如下图所示：其中标签为NE的token可视为positive instance，标签为O的的token被视为negtive instance，被错分为O的NE就称为False Negative。本文提出了一种基于约束驱动的迭代算法（constraint-driven iterative algorithm）来学习发现噪声数据中的Negative False样例并降低他们的权重
复制链接

扫一扫