论文笔记:A Neural Multi-digraph Model for Chinese NER with Gazetteers

一、摘要

文章提出了一种基于图神经网络并结合多种词典的命名实体识别方法,主要的新意是让模型自动去学习词典的特征,而不是像《Incorporating dictionaries into deep neural networks for the Chinese clinical NER》那样基于人工的策略去构建。

二、简介

传统基于人工模板和特征的方法的模型如【最长匹配】、【最短匹配】会遇到错误匹配的问题,如下图:
在这里插入图片描述
而且不同字典的同一实体的表示也不同,也会对匹配造成困扰。

作者在几个数据集中验证了匹配错误的问题:

The entity conflict rate (ECR) is defined as the ratio of non-identical overlapping entity matches to all unique entities matched with all gazetteers

The ECR of OntoNotes, MSRA, Weibo-NER and E-commerce-NER are respectively 39.70%, 44.75%, 36.10% and 46.05%.

而文章引入了图结构,让模型自己去学习一种模板融合字典信息,这样有助于减轻错误匹配的问题。

三、模型

在这里插入图片描述

1、构图

首先根据词典将文本构成一个图,构图过程如下:

  • 节点:每一个字符作为一个结点,每一种词典的每一类对应一对节点(起始与结束),上方有四种词典,因此有四对节点。
  • 边:(1) 按文本中词的顺序连接构成图中黑色的边 (2) 对文本中每一个匹配到的字典中的实体,如上图所示连接起包含起始和结束节点的对应词典类型的边(图中彩色的边)。

2、加工

构造好图后,便依次经过GGCN、LSTM、CRF进行命名实体识别。

四、实验结果

  • 首先是与BaseLine比较
    在这里插入图片描述
    其中w/o表示不使用外部词典。

  • 数据集划分比较

    文章为了证明字典的有效性,对测试集的句子进行了以下分类:

    • All: 句子中所有实体都在训练集中出现过。
    • Some :句子中的部分实体都在训练集中出现过。
    • None:句子中没有实体在训练集中出现过。 (1) 所有的实体都在字典中 (2) 部分实体在字典中。(3) 没有实体在字典中。
      在这里插入图片描述
  • Ablation Study
    论文进一步实验证明了模型给出了三类信息:(1) 边界信息。(2) 实体类型信息。(3) 来源信息
    在这里插入图片描述

  • fixed coefficients指: 在GGCN中不同类型的边的信息的传递有不同权重,用 α c , α 1 . . . α m \alpha_c, \alpha_1 ... \alpha_m αc,α1...αm表示。这里把 α 1 , . . . . , α m \alpha_1,...., \alpha_m α1....,αm固定为1。这证明了字典本身会引入噪声的。

  • AI1G表示把所有的字典集合为一个字典,舍去掉Type信息。证明了字典能够给出边界信息。

  • 1T1G表示一种类型的实体一个字典,具有type信息。证明了字典给出了Type信息。

  • our model指一个词典中同样可能有不同类的实体。证明了字典给出了来源信息。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值