[论文笔记]EMNLP2019: Leverage Lexical Knowledge for Chinese NER via Collaborative Graph Network

一. 介绍

Motivation


作者首先介绍了lexical word information对中文NER的重要性,并提出 lexical word 实际包含了两重信息: 一是词语的边界信息, 二是词语的语义信息。基于此结合现有工作,以Figure1为例,作者提出了两项挑战:

  • 如何融合self-matched words.
    一个字符的 self-matched lexical words 是指都包含这个字符的 lexical word, 例如北京机场机场字符的 self-matched lexical words, 如果能同时将这两个词的信息融入, 则可以避免 被错误标注为B-LOC 或者O

  • 如何融合最近词的上下文信息;例如,如果我们注意到离开一词的语义信息,那么就可以认为希尔顿是一个PER, 那么自然地,的标签就是I-PER而不是I-ORG或者其他。

Proposed-Model

基于以上motivation, 作者提出了一种character-based Collaborative Graph Networks,且网络每层包含三个子图:

  • Containing-Graph(C-Graph): 建立** 字符与对应self-matched words 间的联系**, 目的在于将 self-matched words 的信息融入到 对应字符 中。

  • Transition-Graph(T-Graph): 建立字符和最近上下文词语间的联系, 目的在于直接融合最近上下文词的信息。

  • Lattice-Graph(L-Graph): 通过多跳来捕捉 self-matched words 和 最近上下文词 的局部信息。

Contributions

  • 在中文NER中,提出了 ** Collaborative Graph Networks ** 来直接融合 词典(lexicon)提供的语义信息;

  • 在 Collaborative Graph Networks 中构建了三类子图,这三类子图分别捕获不同的信息;

  • 本文模型取得了良好的实验效果,并比目前SOTA模型得到了6–15倍的加速。

二. 相关工作

  • 介绍 中文NER: 对于边界不明显的中文NER问题,利用词语的边界和语义信息是非常重要的;

  • 图神经网络: 首先简要介绍了GCN和GAT, 然后提出现有利用GCN解决中文NER问题的模型都是依赖句法依赖树来建立一个单个的图, 较容易受到错误传播的影响;因此本文提出的模型中包含根据三种方法构建三种子图,能够避免错依赖树解析误差的影响。

三. 模型

构图

Containing-Graph(C-Graph):
  • 目的: 辅助字符去捕捉对应self-matched lexicon word的语义信息和边界信息
  • 点集: 句子中的字符和 lexicon words
  • 构图如下:
Transition-Graph(T-Graph)
  • 目的: 捕捉字符最近上下文的语义信息
  • 点集: 句子中的字符和 lexicon words
  • 构图如下: 建立 lexicon words 与 字符 间 和 lexion words间 的转移关系图
Lattice-Graph(L-Graph)
  • 目的: 融合 lexicon knolwedge, 且将 Lattice 的 LSTM 结构转变为了图结构;
  • 点集: 句子中的字符和 lexicon words
  • 构图如下:

模型

Encoding 层
  • BiLSTM学习句中每个字符的表示;
  • 用预训练的word embedding作为lexicon word的表示;
  • 字符表示和word表示的拼接作为这一层的输出
GAT for three interactive graphs

每个GAT的输入是节点特征表示 N o d e = f 1 , f 2 , . . . , f n Node={\rm{f}_1, \rm{f}_2, ..., \rm{f}_n} Node=f1,f2,...,fn及对应的邻接矩阵, 输出是节点的新的表示;GAT 的操作通过 k k k个头如下进行:



在最后一层,通过Average得到最后的表示:

C-Graph, T-Graph 和 L-Graph 都通过如上的GAT操作得到字符和lexicon word的表示;然后去掉 lexicon words 的表示,保留下字符的表示作为最终的输出。

Fusion-Layer

Fusion-Layer目标在于将三个Graph所得的 lexicon knowledge 进行融合。Fusion-Layer的输入是BiLSTM得到的字符表示 H H H 和三个GAT得到的字符表示 Q 1 , Q 2 , Q 3 Q_1, Q_2, Q_3 Q1,Q2,Q3, 通过如下方法fusion:

Decode

通过CRF对字符表示进行解码,得到标注结果;

四. 实验

主要介绍了数据集、实验超参设置、实验总体结果 ,并进行以下消融实验

研究三种Graph的影响

作者分别去掉三种graph中的一种或两种进行试验,结论是每种graph都可以单独使用,但三者联合使用得到最好的效果

五. Case Study

通过对两则实例分别去掉 C-Graph 和 T-Graph 的实验结果进行了对比:


了解更多论文分享信息,请关注公众号深度学习的知识小屋

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值