一、摘要
文章提出了一种基于图神经网络并结合多种词典的命名实体识别方法,主要的新意是让模型自动去学习词典的特征,而不是像《Incorporating dictionaries into deep neural networks for the Chinese clinical NER》那样基于人工的策略去构建。
二、简介
传统基于人工模板和特征的方法的模型如【最长匹配】、【最短匹配】会遇到错误匹配的问题,如下图:
而且不同字典的同一实体的表示也不同,也会对匹配造成困扰。
作者在几个数据集中验证了匹配错误的问题:
The entity conflict rate (ECR) is defined as the ratio of non-identical overlapping entity matches to all unique entities matched with all gazetteers
The ECR of OntoNotes, MSRA, Weibo-NER and E-commerce-NER are respectively 39.70%, 44.75%, 36.10% and 46.05%.
而文章引入了图结构,让模型自己去学习一种模板融合字典信息,这样有助于减轻错误匹配的问题。
三、模型
1、构图
首先根据词典将文本构成一个图,构图过程如下:
- 节点:每一个字符作为一个结点,每一种词典的每一类对应一对节点(起始与结束),上方有四种词典,因此有四对节点。
- 边:(1) 按文本中词的顺序连接构成图中黑色的边 (2) 对文本中每一个匹配到的字典中的实体,如上图所示连接起包含起始和结束节点的对应词典类型的边(图中彩色的边)。
2、加工
构造好图后,便依次经过GGCN、LSTM、CRF进行命名实体识别。
四、实验结果
-
首先是与BaseLine比较:
其中w/o
表示不使用外部词典。 -
数据集划分比较
文章为了证明字典的有效性,对测试集的句子进行了以下分类:
- All: 句子中所有实体都在训练集中出现过。
- Some :句子中的部分实体都在训练集中出现过。
- None:句子中没有实体在训练集中出现过。 (1) 所有的实体都在字典中 (2) 部分实体在字典中。(3) 没有实体在字典中。
-
Ablation Study
论文进一步实验证明了模型给出了三类信息:(1) 边界信息。(2) 实体类型信息。(3) 来源信息
-
fixed coefficients
指: 在GGCN中不同类型的边的信息的传递有不同权重,用 α c , α 1 . . . α m \alpha_c, \alpha_1 ... \alpha_m αc,α1...αm表示。这里把 α 1 , . . . . , α m \alpha_1,...., \alpha_m α1,....,αm固定为1。这证明了字典本身会引入噪声的。 -
AI1G
表示把所有的字典集合为一个字典,舍去掉Type信息。证明了字典能够给出边界信息。 -
1T1G
表示一种类型的实体一个字典,具有type信息。证明了字典给出了Type信息。 -
our model
指一个词典中同样可能有不同类的实体。证明了字典给出了来源信息。