【论文笔记】 A Lexicon-Based Graph Neural Network for Chinese NER

本文介绍了一种新的模型LGN,它利用词典知识构建图神经网络解决中文命名实体识别中的歧义问题,通过图结构捕捉全局上下文和局部构成信息。实验结果显示,LGN在长距离依赖和复杂句法理解上优于传统方法,F1分数显著提高。
摘要由CSDN通过智能技术生成

A Lexicon-Based Graph Neural Network for Chinese NER

原始论文地址

原始论文代码

论文作者:Tao Gui* , Yicheng Zou* et al…

作者单位:复旦大学

0 摘要

循环神经网络RNN在中文命名实体识别NER方面已经取得了巨大的成功。但是由于RNN链式结构的特性(RNN的链式结构只能从左到右或者从右到左,无法捕获全局信息)和缺乏全局语义决定了基于RNN的模型极易可能产生“词的歧义”的问题。因此,在该篇论文中,我们引进了一个具有全局语义性的基于词典知识的的图神经神经网络来解决基于RNN模型在NER方面的局限性。词典中的知识用于捕获字之间的局部信息。全局中继节点可以捕获句子中的全局信息和长距离依赖。基于图网络结构的字、所有的匹配词以及整个句子之间的多次交互,可以有效地解决单词歧义。

1 引言

中文命名体识别要比英文命名体识别更有难度,因为其不确定的边界,复杂的组成等。

idea提出原因

基于RNN或者条件随机场(CRF)的方法通常顺序地去编码一个句子,然而语言的结构本质上并不是严格顺序的。因此上面的方法会造成严重的单词歧义,尤其在中文文本中,通常还有重叠歧义的问题。下图 展示了一个重叠歧义的例子:

在这里插入图片描述

作者的idea

我们引进一种基于词典的图神经网络(LGN)来实现中文命名实体的识别,我们把该任务看成节点分类任务。

  • 图结构能够打破 RNN 序列结构的限制,使 character 和 lexicon word 间有更充分的联系
  • 词典知识将相关词汇连接起来,能捕获局部的构成信息。
  • 本文设计了一个全局中继节点捕获长距离依赖高层次的特征信息

贡献点

  • 我们提出利用词典信息去构建一个图神经网络来进行中文命名实体的识别,并将中文NER问题建模为图中节点分类问题
  • 我们提出的模型能够捕获全局上下文信息和局部的构成信息,通过迭代聚合机制来解决中文中词语边界模糊的问题;
  • 几组实验表明我们的模型的有效性

2 相关工作

基于词典的中文NER工作

简单介绍了现有的利用词典知识进行中文NER的工作或方法,但是这些方法没有利用全局信息。

图神经网络在文本方面的工作

介绍了GNN在文本分类方面的工作。也提到了最近备受关注的多头注意力机制(见下图)。

在这里插入图片描述

但是,这些工作都没能利用原始文本中的字间的联系去构建图。

3 基于词典的图神经网络模型–LGN

我们的模型LGN通过**聚合->更新->聚合->…**的方式更好的获得字、词和句子间的交互。

3.1 图的构造和聚合

我们利用词典知识去连接字符从而捕获局部结构和潜在的单词分界;此外构造一个全局中继节点捕获长距离依赖和高层的信息。对于聚合模块,和Transformer中的多头注意力机制类似。

图的构造

整个句子被转换成一个有向图,每个字对应一个节点,每条边连接一个词的第一个字和最后一个字。

在这里插入图片描述

  • i i i个节点的状态表示一个文本序列中第 i i i个字的特征
  • 每条边的状态表示一个潜在的可能出现的单词(即lexicon word)的特征

全局中继节点与图中的每条边和节点相连来收集所有边和节点的信息,然后利用这全局信息来消除词的歧义。对于一个有 n n n个节点和 m m m条边的图,将有 n + m n+m n+m条虚拟边连接到全局中继节点上。在全局连接的情况下,每两个不相邻的节点都是2跳(2-hop)邻居,通过两步更新操作来接受非局部的信息。

此外,我们还对上面所构造的图进行转置操作,将原始图和转置图拼接(concatenate)在一起作为最后的节点表示,这点和 B i L S T M BiLSTM BiLSTM是类似的。

节点聚合

字节点、字节点相连的边以及字节点之间词组成的边进行聚合。

在这里插入图片描述

如上图,要聚合 c 7 c_7 c7,需要将 c 7 c_7 c7 c 4 , e 4 , 7 , c 6 , e 6 , 7 c_4,e_{4,7},c_6,e_{6,7} c4,e4,7,c6,e6,7一起聚合。节点聚合的数学化描述如下:

在这里插入图片描述

[ ⋅ ; ⋅ ] [·;·] []表示拼接操作。

边的聚合

把将要聚合的边和该边包含的节点一起聚合。

在这里插入图片描述

如上图,要聚合 e 4 , 7 e_{4,7} e4,7,需要将 e 4 , 7 e_{4,7} e4,7 c 4 , c 5 , c 6 , c 7 c_4,c_5,c_6,c_7 c4,c5,c6,c7一起聚合。边聚合的数学化描述如下:

在这里插入图片描述

在这里插入图片描述

全局聚合

语言的真实结构不是严格的顺序结构。为了捕获长距离依赖和高层信息,利用全局中继节点来聚合每个节点和每条边。

在这里插入图片描述

  • 公式第一行:全局节点与字节点的聚合
  • 公式第二行:全局节点与边的聚合
  • 公式第三行:上面两个进行拼接。

这样一来,模型可以充分利用局部和非局部的信息去消除词歧义的问题。

3.2 基于循环的图更新

节点更新

在这里插入图片描述

  • χ i t \chi_i^t χit中包含的两项分别从公式(2)和公式(4)所得;
  • W , V , b W,V,b W,V,b可训练参数;
  • ξ i t \xi_i^t ξit是上下文窗口(context window)邻接向量的拼接;
  • i i t , f i t , l i t i_i^t,f_i^t,l_i^t iit,fit,lit是三个门结构,用来控制由全局特征向字符表示 c i t c_i^t cit的信息流,从而调节lexicon attention(e->c)的权重,来解决文本序列边界模糊的问题。

边更新

在这里插入图片描述

  • χ b , e t \chi_{b,e}^t χb,et中包含的两项分别从公式(3)和公式(4)所得;
  • i b , e t , f b , e t i_{b,e}^t,f_{b,e}^t ib,et,fb,et是门结构,控制信息流。

全局中继节点更新

在这里插入图片描述

  • g ^ t − 1 \hat g^{t-1} g^t1可以由公式(4)得到

3.3 解码与训练

图中的节点表示即每个字的表示。

将最后节点的表示输入 C R F CRF CRF层进行约束。

在这里插入图片描述

损失函数:negative log-likelihood loss

在这里插入图片描述

解码:维特比解码Viterbi algorithm

在这里插入图片描述

4 实验细节

Baseline

  • Character-level methods

  • Character-level methods + bichar + softword

  • Word-level methods

  • Word-level methods + char + bichar

  • Lattice LSTM

超参数设置

在这里插入图片描述

5 实验结果与分析

5.1 Main Results

在这里插入图片描述

5.2 消息传递的步长的影响

在这里插入图片描述

结果表明,更新步数对LGN性能的影响至关重要,当更新次数 T ≥ 3 T\ge 3 T3时,四个数据集达到最结果。

5.3 各组件贡献度分析

在这里插入图片描述

  • 去掉全局中继节点,模型的性能会下降。
  • 词典知识在字符基础模型的识别中起着重要的作用
  • 去掉边和全局节点会进一步导致性能的损失
  • 在去除CRF层后,两种模型的性能有了明显的差距。LGN的F1平均下降了3.59%,Lattice LSTM则下降了6.24%。说明LGN具有较强的建模能力。

5.4 句长的影响分析

在这里插入图片描述

随着句子长度的增加,在大多数情况下,与其他方法相比,LGN的F1更高,这表明图结构可以很好的捕获句子的全局语义和长距离依赖。

5.5 案例分析

在这里插入图片描述

由于采用图消息的多次传递,LGN能融合上下文信息,最终成功检测出实体的正确位置。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值