Enhancing Entity Boundary Detection for Better Chinese Named Entity Recognition
- 摘要
- 介绍
- 相关工作
- 模型
- T o k e n E m b e d d i n g Token Embedding TokenEmbedding 层
- 基于 S t a r − T r a n s f o r m e r Star-Transformer Star−Transformer上下文嵌入层
- Multi-Head Attention
- S t a r − T r a n s f o r m e r Star-Transformer Star−Transformer编码器
- H i g h w a y N e t w o r k s Highway Networks HighwayNetworks
- 基于 G A T GAT GAT的依赖嵌入层
- 基于 G R U GRU GRU的头部和尾部表示层
- 模型学习
- 实验
- 结论
摘要
这篇文章研究了中文命名实体识别中的边界检测增强方法,探索从两个方面来增强实体边界信息:一是增加一个图注意力网络层来捕捉句子中词之间的依赖关系;二是将实体首尾词汇的预测看作是两个独立的二分类问题,作为辅助任务加入训练。
实验证明,文章所提出的边界增强模型对于实体边界和实体类型的识别有提升,并且在书面与非书面文本上都有效果,在
O
n
t
o
N
o
t
e
s
4
OntoNotes4
OntoNotes4、
O
n
t
o
N
o
t
e
s
5
OntoNotes5
OntoNotes5等数据集上达到了
S
O
T
A
SOTA
SOTA效果。
介绍
在给定一个句子的情况下,NER任务的目标是识别具有预先定义的特殊含义的名词短语。由于其在关系抽取、共指消解、知识图谱等下游任务中的重要性,长期以来一直受到人们的广泛关注。
与英语相比,由于缺乏明确的词界和时态信息,汉语名词短语更具挑战性。事实上,目前 S O T A s SOTAs SOTAs中文版的表现远远不及英文版, F 1 − m e a s u r e F1-measure F1−measure的差距约为10%。在本文中,我们提出了一种边界增强的方法,以提高中文NER的质量。
首先,利用 S t a r − T r a n s f o r m e r Star-Transformer Star−Transformer构建了一个轻量级的基线系统。得益于Star-Transformer独特的星形拓扑结构,Star-Transformer在表示长距离序列方面更具优势,因此,我们的基线取得了与 S T O A s STOAs STOAs相当的性能。针对局部序列信息表示的不足,尝试对局部边界信息进行增强。特别地,我们的方法从两个角度增强了边界信息。一方面,我们增加了一个** G A T GAT GAT层来捕捉短语的内部依赖关系**。通过这种方式,可以隐式区分边界,同时增强短语中的语义信息。另一方面,我们增加了一个辅助任务来预测实体的头部和尾部。这样,在多任务学习框架下,我们可以明确地学习边界信息,从而帮助NER完成任务。实验证明了该方法的有效性。值得注意的是,我们的方法在 O n t o N o t e s OntoNotes OntoNotes和微博语料库上都获得了最新的 S O T A SOTA SOTA结果。这意味着我们的方法可以很好地处理书面和非书面文本。
相关工作
众所周知,大多数研究将
N
E
R
NER
NER任务归结为一个传统的序列标注问题,并提出了许多扩展
B
i
−
L
S
T
M
+
C
R
F
Bi-LSTM+CRF
Bi−LSTM+CRF结构的模型。尽管基于注意力的模型,即
T
r
a
n
s
f
o
r
m
e
r
Transformer
Transformer,在各个领域已经逐渐超越了传统的
R
N
N
RNN
RNN模型。已验证完全连接的
T
r
a
n
s
f
o
r
m
e
r
Transformer
Transformer机制在
N
E
R
NER
NER上无法正常工作。直到最近,一些研究表明,
S
t
a
r
−
T
r
a
n
s
f
o
r
m
e
r
Star-Transformer
Star−Transformer由于其轻量级的拓扑结构,可以很好地工作在
N
E
R
NER
NER上。此外,为了更好地捕捉局部语义信息,词汇信息和依存信息已被广泛应用于这一任务中。
本文以
S
t
a
r
−
T
r
a
n
s
f
o
r
m
e
r
Star-Transformer
Star−Transformer为基线,主要致力于增强边界信息,以提高中文
N
E
R
NER
NER的性能。
模型
本文还将
N
E
R
NER
NER视为序列标记任务,使用经典的
C
R
F
CRF
CRF进行解码。
F
i
g
u
r
e
1
Figure1
Figure1显示了完整的模型。发现,该模型的编码器由三个部分组成,即基于
G
R
U
GRU
GRU的头尾表示层、基于
S
t
a
r
−
T
r
a
n
s
f
o
r
m
e
r
Star-Transformer
Star−Transformer的上下文嵌入层和基于
G
A
T
GAT
GAT的依赖嵌入层。
T o k e n E m b e d d i n g Token Embedding TokenEmbedding 层
考虑到缺乏明确的词边界,我们将词级表示与字符相结合,避免了分词带来的错误传播。对于给定的句子,我们通过查找预先训练的单词嵌入来表示每个单词和字符。包含在单词中的字符嵌入序列将被馈送到双向
G
R
U
GRU
GRU层。双向
G
R
U
GRU
GRU的隐藏状态可以表示为:
其中
x
i
t
x_{i}^{t}
xit是token表示,
h
⃗
i
t
\vec{h}_{i}^{t}
hit和
h
⃗
i
t
\vec{h}_{i}^{t}
hit表示GRU层的第
t
t
t个向前和向后隐藏状态。
最终的
t
o
k
e
n
token
token表示形式如下所示:
其中[;]表示连接,
p
o
s
i
pos_i
posi表示
w
o
r
d
i
word_i
wordi的词性标注。
基于 S t a r − T r a n s f o r m e r Star-Transformer Star−Transformer上下文嵌入层
S t a r t − T r a n s f o r m e r Start-Transformer Start−Transformer放弃了冗余连接,并具有近似建模远程依赖关系的能力。对于NER任务,实体是稀疏的,不需要一直关注句子中的所有节点。利用这种结构化模型对句子中的单词进行编码,其性能与传统的RNN模型相当,但具有捕获长范围依存关系的能力。
Multi-Head Attention
T
r
a
n
s
f
o
r
m
e
r
Transformer
Transformer使用
h
h
h个注意力头来分别在输入序列上实现
S
e
l
f
−
A
t
t
e
n
t
i
o
n
Self-Attention
Self−Attention。每个注意力头部的结果将被整合在一起,称为多头注意力。
在给定向量序列
X
X
X的情况下,我们使用查询向量
Q
Q
Q来关注相关信息的软选择:
其中,
W
K
W^K
WK和
W
V
W^V
WV是可学习的参数。多头注意力可以定义为如下:
其中,⊕表示串联,
W
o
W^o
Wo,
W
i
Q
W_{i}^{Q}
WiQ,
W
i
K
W_{i}^{K}
WiK,
W
i
V
W_{i}^{V}
WiV,是可学习的参数。
S t a r − T r a n s f o r m e r Star-Transformer Star−Transformer编码器
S
t
a
r
t
−
T
r
a
n
s
f
o
r
m
e
r
Start-Transformer
Start−Transformer的拓扑结构由一个中继节点和两个卫星节点组成。第
i
i
i个卫星节点的状态代表文本序列中的第
i
i
i个
t
o
k
e
n
token
token的特征。中继节点充当从所有卫星节点收集信息和向所有卫星节点分散信息的虚拟集线器。
S
t
a
r
t
−
T
r
a
n
s
f
o
r
m
e
r
Start-Transformer
Start−Transformer提出了一种时间步长循环更新方法,每个卫星节点由输入向量初始化,中继节点初始化为所有token的平均值。每个卫星节点的状态根据其相邻节点进行更新,包括上一轮中的上一个节点
h
i
−
1
t
−
1
h_{i-1}^{t-1}
hi−1t−1、上一轮中的当前节点
h
i
t
−
1
h_{i}^{t-1}
hit−1、上一轮中的下一个节点
h
i
+
1
t
−
1
h_{i+1}^{t-1}
hi+1t−1、当前节点
e
i
e^i
ei和上一轮中的中继节点
s
t
−
1
s^{t-1}
st−1,更新过程如下式所示:
其中,
C
i
t
C_{i}^{t}
Cit表示第
i
i
i个上下文信息。
中继节点的更新取决于所有卫星节点的信息和上一轮的状态:
H i g h w a y N e t w o r k s Highway Networks HighwayNetworks
H
i
g
h
w
a
y
N
e
t
w
o
r
k
s
Highway Networks
HighwayNetworks(高速公路网)可以在路网加深时缓解堵塞的坡度回流。这种门控机制对
T
r
a
n
s
f
o
r
m
e
r
Transformer
Transformer具有至关重要的意义。我们使用公路网来降低
S
t
a
r
t
−
T
r
a
n
s
f
o
r
m
e
r
Start-Transformer
Start−Transformer的深度和复杂性。
H
i
g
h
w
a
y
N
e
t
w
o
r
k
s
Highway Networks
HighwayNetworks在计算了多头注意力后,加入了一个以公路网为主的新分支,表明卫星节点的自更新和动态调整。
其中,
w
1
w_1
w1,
w
2
w_2
w2,
b
1
b_1
b1,
b
2
b_2
b2,是可学习的参数,
σ
σ
σ是激活函数。
最后,更新后的卫星节点表示为:
高速公路网既增强了卫星节点的固有特性,又避免了梯度阻塞。
基于 G A T GAT GAT的依赖嵌入层
在这项工作中,提出利用词与词之间的依存关系来构建图神经网络。依存关系是方向性的,当前词只与具有共享边的词相关。这种定向链接进一步获得了实体的内部结构信息,丰富了顺序表示。
图注意网络(GAT)利用掩蔽的
S
e
l
f
−
A
t
t
e
n
t
i
o
n
Self-Attention
Self−Attention层为相邻节点赋予不同的重要性。注意系数
e
i
j
e_{ij}
eij和
α
i
j
α_{ij}
αij表示节点
j
j
j对节点
i
i
i的重要性。
具有
K
K
K个独立注意头的
G
A
T
GAT
GAT操作可以表示为:
其中,⊕表示串联,
W
W
W和
a
⃗
\vec{a}
a是可学习的参数,
N
i
N_i
Ni表示节点
i
i
i的邻域,σ表示激活函数。
该算法除了对GAT层的关联节点有较强的关注度外,还能很好地弥补
S
t
a
r
−
T
r
a
n
s
f
o
r
m
e
r
Star-Transformer
Star−Transformer在捕捉短语内部依存关系方面的不足。
基于 G R U GRU GRU的头部和尾部表示层
虽然 G A T GAT GAT在捕捉实体内部依赖方面是有效的,但是实体的边界需要加强。然后将实体边界检测看作二值分类任务,与 N E R 4 同 时 训 练 , 给 NER4同时训练,给 NER4同时训练,给NERKaTeX parse error: Expected 'EOF', got '&' at position 12: 清晰的实体边界信息。 &̲emsp; 在训练阶…GRU 层 对 实 体 进 行 头 部 和 尾 部 预 测 , 并 将 其 隐 含 特 征 与 层对实体进行头部和尾部预测,并将其隐含特征与 层对实体进行头部和尾部预测,并将其隐含特征与GATKaTeX parse error: Expected 'EOF', got '#' at position 86: …2acc6a8ee1b.png#̲pic_center) &em…W_1 , , ,W_2 , , ,W_3 是 可 学 习 的 参 数 , 是可学习的参数, 是可学习的参数,H$是CRF的最终输入。
模型学习
实体边界不仅是本文要处理的任务,而且是NER提供的完美的自然辅助,NER从外到内转换,反之亦然。
多任务损失函数由边界检测的类别交叉熵损失和实体类别标签预测的类别交叉熵损失组成:
实验
数据集
标签是用BIESO标记的,使用Precision§、Recall®和F1 Score(F1)作为评估标准。
- OntoNotes V4.0:是一个中文数据集,由来自新闻领域的文本组成。
- OntoNotes V5.0:也是来自新闻领域的中文数据集,但规模更大,实体类型更多。
- Weibo NER:包含摘自社交媒体新浪微博的带标注的NER消息。
另外,本文使用的句法依存分析工具是DDParser。
结果和分析
在OntoNotes和微博语料库上进行了实验,并将结果与现有的模型进行了比较,如Table 1所示:
首先建立一个
S
t
a
r
t
−
T
r
a
n
s
f
o
r
m
e
r
Start-Transformer
Start−Transformer基准,这在较小的社交媒体微博语料库上比OntoNotes更有效。
S
t
a
r
−
T
r
a
n
s
f
o
r
m
e
r
Star-Transformer
Star−Transformer可以优于微博上现有的所有模型,命名实体(NE)和名义实体(NM)至少有6.29%(F1)和8.85%(F1)。
考虑到OntoNotes的结构特点,其中实体具有相似的组成,使用遗传算法T来模拟实体内部的特征。OntoNotes的精度分别提高了3.93%和1.62%。在此基础上,将边界预测作为多任务利用标签分类进行训练,为神经网络提供局部序列信息。表2显示了模型中不同实体识别错误的数量,包括类型错误(TE)、不可识别错误(UE)和边界错误(BE),添加了实体头尾预测,使OntoNotesV4.0上的边界错误数量减少了37个。毫无疑问,边界增强模型对于实体边界和实体类型的识别都是非常有益的。
对于微博,NE和NM表现出不同的性能。更标准的NE具有与OntoNotes相似的性能,而NM受GAT的影响较小,这是因为它的长度较短且非结构化。
结合以上三层各自的优势,可以将一个统一的轻量级模型应用于中文NER,在OntoNotes和微博语料库上都得到了最新的结果。
结论
在本文中,主要关注边界信息对中文NER的影响。本文首先提出了一种基于 S t a r t − T r a n s f o r m e r Start-Transformer Start−Transformer的NER系统。然后结合显式头尾边界信息和基于依赖遗传T的隐式边界信息对中文神经网络进行改进。在OntoNotes和微博语料库上的实验表明了该方法的有效性。