ACL2021_Enhancing Entity Boundary Detection for Better Chinese Named Entity Recognition

最新推荐文章于 2024-02-09 13:12:14 发布

All in .

最新推荐文章于 2024-02-09 13:12:14 发布

阅读量1.8k

点赞数 4

分类专栏：论文笔记文章标签：自然语言处理

本文链接：https://blog.csdn.net/sunshine_10/article/details/120233078

版权

论文笔记专栏收录该内容

20 篇文章

订阅专栏

本文探讨了如何增强中文命名实体识别（NER）中的边界检测，提出了一种基于Star-Transformer的模型，增加了GAT层来捕捉短语内部依赖，并通过预测实体头部和尾部作为辅助任务来明确边界信息。实验表明，这种方法在OntoNotes和微博数据集上提高了NER的性能，尤其是在实体边界检测和类型识别上表现优异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Enhancing Entity Boundary Detection for Better Chinese Named Entity Recognition

摘要
介绍
相关工作
模型
实验
- 数据集
- 结果和分析
结论

论文

摘要

这篇文章研究了中文命名实体识别中的边界检测增强方法，探索从两个方面来增强实体边界信息：一是增加一个图注意力网络层来捕捉句子中词之间的依赖关系；二是将实体首尾词汇的预测看作是两个独立的二分类问题，作为辅助任务加入训练。
实验证明，文章所提出的边界增强模型对于实体边界和实体类型的识别有提升，并且在书面与非书面文本上都有效果，在 $O n t o N o t e s 4$ 、 $O n t o N o t e s 5$ 等数据集上达到了 $S O T A$ 效果。

介绍

在给定一个句子的情况下，NER任务的目标是识别具有预先定义的特殊含义的名词短语。由于其在关系抽取、共指消解、知识图谱等下游任务中的重要性，长期以来一直受到人们的广泛关注。

与英语相比，由于缺乏明确的词界和时态信息，汉语名词短语更具挑战性。事实上，目前 $S O T A s$ 中文版的表现远远不及英文版， $F 1 - m e a s u r e$ 的差距约为10%。在本文中，我们提出了一种边界增强的方法，以提高中文NER的质量。

首先，利用 $S t a r - T r a n s f o r m e r$ 构建了一个轻量级的基线系统。得益于Star-Transformer独特的星形拓扑结构，Star-Transformer在表示长距离序列方面更具优势，因此，我们的基线取得了与 $S T O A s$ 相当的性能。针对局部序列信息表示的不足，尝试对局部边界信息进行增强。特别地，我们的方法从两个角度增强了边界信息。一方面，我们增加了一个** $G A T$ 层来捕捉短语的内部依赖关系**。通过这种方式，可以隐式区分边界，同时增强短语中的语义信息。另一方面，我们增加了一个辅助任务来预测实体的头部和尾部。这样，在多任务学习框架下，我们可以明确地学习边界信息，从而帮助NER完成任务。实验证明了该方法的有效性。值得注意的是，我们的方法在 $O n t o N o t e s$ 和微博语料库上都获得了最新的 $S O T A$ 结果。这意味着我们的方法可以很好地处理书面和非书面文本。

模型

本文还将 $N E R$ 视为序列标记任务，使用经典的 $C R F$ 进行解码。 $F i g u r e 1$ 显示了完整的模型。发现，该模型的编码器由三个部分组成，即基于 $G R U$ 的头尾表示层、基于 $S t a r - T r a n s f o r m e r$ 的上下文嵌入层和基于 $G A T$ 的依赖嵌入层。
在这里插入图片描述

$T o k e n E m b e d d i n g$ 层

考虑到缺乏明确的词边界，我们将词级表示与字符相结合，避免了分词带来的错误传播。对于给定的句子，我们通过查找预先训练的单词嵌入来表示每个单词和字符。包含在单词中的字符嵌入序列将被馈送到双向 $G R U$ 层。双向 $G R U$ 的隐藏状态可以表示为：
在这里插入图片描述
其中 $x_{i}^{t}$ 是token表示， $\vec{h}_{i}^{t}$ 和 $\vec{h}_{i}^{t}$ 表示GRU层的第 $t$ 个向前和向后隐藏状态。
最终的 $t o k e n$ 表示形式如下所示：

其中[;]表示连接， $pos_i$ 表示 $word_i$ 的词性标注。

基于 $S t a r - T r a n s f o r m e r$ 上下文嵌入层

$S t a r t - T r a n s f o r m e r$ 放弃了冗余连接，并具有近似建模远程依赖关系的能力。对于NER任务，实体是稀疏的，不需要一直关注句子中的所有节点。利用这种结构化模型对句子中的单词进行编码，其性能与传统的RNN模型相当，但具有捕获长范围依存关系的能力。

Multi-Head Attention

$T r a n s f o r m e r$ 使用 $h$ 个注意力头来分别在输入序列上实现 $S e l f - A t t e n t i o n$ 。每个注意力头部的结果将被整合在一起，称为多头注意力。
在给定向量序列 $X$ 的情况下，我们使用查询向量 $Q$ 来关注相关信息的软选择：
在这里插入图片描述
其中， $W^K$ 和 $W^V$ 是可学习的参数。多头注意力可以定义为如下：

其中，⊕表示串联， $W^o$ , $W_{i}^{Q}$ , $W_{i}^{K}$ , $W_{i}^{V}$ ，是可学习的参数。

$S t a r - T r a n s f o r m e r$ 编码器

$S t a r t - T r a n s f o r m e r$ 的拓扑结构由一个中继节点和两个卫星节点组成。第 $i$ 个卫星节点的状态代表文本序列中的第 $i$ 个 $t o k e n$ 的特征。中继节点充当从所有卫星节点收集信息和向所有卫星节点分散信息的虚拟集线器。
$S t a r t - T r a n s f o r m e r$ 提出了一种时间步长循环更新方法，每个卫星节点由输入向量初始化，中继节点初始化为所有token的平均值。每个卫星节点的状态根据其相邻节点进行更新，包括上一轮中的上一个节点 $h_{i-1}^{t-1}$ 、上一轮中的当前节点 $h_{i}^{t-1}$ 、上一轮中的下一个节点 $h_{i+1}^{t-1}$ 、当前节点 $e^i$ 和上一轮中的中继节点 $s^{t-1}$ ，更新过程如下式所示：
在这里插入图片描述
其中， $C_{i}^{t}$ 表示第 $i$ 个上下文信息。
中继节点的更新取决于所有卫星节点的信息和上一轮的状态：

$H i g h w a y N e t w o r k s$

$H i g h w a y N e t w o r k s$ （高速公路网）可以在路网加深时缓解堵塞的坡度回流。这种门控机制对 $T r a n s f o r m e r$ 具有至关重要的意义。我们使用公路网来降低 $S t a r t - T r a n s f o r m e r$ 的深度和复杂性。
$H i g h w a y N e t w o r k s$ 在计算了多头注意力后，加入了一个以公路网为主的新分支，表明卫星节点的自更新和动态调整。
在这里插入图片描述
其中， $w_1$ , $w_2$ , $b_1$ , $b_2$ ，是可学习的参数， $σ$ 是激活函数。
最后，更新后的卫星节点表示为：

高速公路网既增强了卫星节点的固有特性，又避免了梯度阻塞。

基于 $G A T$ 的依赖嵌入层

在这项工作中，提出利用词与词之间的依存关系来构建图神经网络。依存关系是方向性的，当前词只与具有共享边的词相关。这种定向链接进一步获得了实体的内部结构信息，丰富了顺序表示。

图注意网络(GAT)利用掩蔽的 $S e l f - A t t e n t i o n$ 层为相邻节点赋予不同的重要性。注意系数 $e_{ij}$ 和 $α_{ij}$ 表示节点 $j$ 对节点 $i$ 的重要性。
在这里插入图片描述
具有 $K$ 个独立注意头的 $G A T$ 操作可以表示为：

其中，⊕表示串联， $W$ 和 $\vec{a}$ 是可学习的参数， $N_i$ 表示节点 $i$ 的邻域，σ表示激活函数。
该算法除了对GAT层的关联节点有较强的关注度外，还能很好地弥补 $S t a r - T r a n s f o r m e r$ 在捕捉短语内部依存关系方面的不足。

基于 $G R U$ 的头部和尾部表示层

虽然 $G A T$ 在捕捉实体内部依赖方面是有效的，但是实体的边界需要加强。然后将实体边界检测看作二值分类任务，与 $N E R 4 同时训练，给$ NER $KaTeX parse error: Expected 'EOF', got '&' at position 12: 清晰的实体边界信息。 &̲emsp;&emsp;在训练阶\dots$ GRU $层对实体进行头部和尾部预测，并将其隐含特征与$ GAT $KaTeX parse error: Expected 'EOF', got '#' at position 86: \dots2acc6a8ee1b.png#̲pic_center) &em\dots$ W_1 $,$ W_2 $,$ W_3 $是可学习的参数，$ H$是CRF的最终输入。

模型学习

实体边界不仅是本文要处理的任务，而且是NER提供的完美的自然辅助，NER从外到内转换，反之亦然。
多任务损失函数由边界检测的类别交叉熵损失和实体类别标签预测的类别交叉熵损失组成：
在这里插入图片描述

实验

数据集

标签是用BIESO标记的，使用Precision§、Recall®和F1 Score(F1)作为评估标准。

OntoNotes V4.0：是一个中文数据集，由来自新闻领域的文本组成。
OntoNotes V5.0：也是来自新闻领域的中文数据集，但规模更大，实体类型更多。
Weibo NER：包含摘自社交媒体新浪微博的带标注的NER消息。

另外，本文使用的句法依存分析工具是DDParser。

结果和分析

在OntoNotes和微博语料库上进行了实验，并将结果与现有的模型进行了比较，如Table 1所示：
在这里插入图片描述
首先建立一个 $S t a r t - T r a n s f o r m e r$ 基准，这在较小的社交媒体微博语料库上比OntoNotes更有效。 $S t a r - T r a n s f o r m e r$ 可以优于微博上现有的所有模型，命名实体(NE)和名义实体(NM)至少有6.29%(F1)和8.85%(F1)。

考虑到OntoNotes的结构特点，其中实体具有相似的组成，使用遗传算法T来模拟实体内部的特征。OntoNotes的精度分别提高了3.93%和1.62%。在此基础上，将边界预测作为多任务利用标签分类进行训练，为神经网络提供局部序列信息。表2显示了模型中不同实体识别错误的数量，包括类型错误(TE)、不可识别错误(UE)和边界错误(BE)，添加了实体头尾预测，使OntoNotesV4.0上的边界错误数量减少了37个。毫无疑问，边界增强模型对于实体边界和实体类型的识别都是非常有益的。

对于微博，NE和NM表现出不同的性能。更标准的NE具有与OntoNotes相似的性能，而NM受GAT的影响较小，这是因为它的长度较短且非结构化。
结合以上三层各自的优势，可以将一个统一的轻量级模型应用于中文NER，在OntoNotes和微博语料库上都得到了最新的结果。