[论文笔记]EMNLP2019: Leverage Lexical Knowledge for Chinese NER via Collaborative Graph Network

最新推荐文章于 2022-06-18 10:47:43 发布

御风而行Carrie

最新推荐文章于 2022-06-18 10:47:43 发布

阅读量1.4k

点赞数 3

分类专栏：论文笔记文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/carrie_0307/article/details/104986035

版权

论文笔记专栏收录该内容

23 篇文章 2 订阅

订阅专栏

构建联合图神经网络解决中文NER问题
论文链接
论文代码

一. 介绍

Motivation

作者首先介绍了lexical word information对中文NER的重要性，并提出 lexical word 实际包含了两重信息: 一是词语的边界信息，二是词语的语义信息。基于此结合现有工作，以Figure1为例，作者提出了两项挑战：

如何融合self-matched words.
一个字符的 self-matched lexical words 是指都包含这个字符的 lexical word, 例如北京机场和机场是机字符的 self-matched lexical words, 如果能同时将这两个词的信息融入机，则可以避免机被错误标注为B-LOC 或者O
如何融合最近词的上下文信息；例如，如果我们注意到离开一词的语义信息，那么就可以认为希尔顿是一个PER, 那么自然地，顿的标签就是I-PER而不是I-ORG或者其他。

Proposed-Model

基于以上motivation, 作者提出了一种character-based Collaborative Graph Networks，且网络每层包含三个子图:

Containing-Graph(C-Graph): 建立** 字符与对应self-matched words 间的联系**，目的在于将 self-matched words 的信息融入到对应字符中。
Transition-Graph(T-Graph): 建立字符和最近上下文词语间的联系，目的在于直接融合最近上下文词的信息。
Lattice-Graph(L-Graph): 通过多跳来捕捉 self-matched words 和最近上下文词 的局部信息。

Contributions

在中文NER中，提出了 ** Collaborative Graph Networks ** 来直接融合词典(lexicon)提供的语义信息；
在 Collaborative Graph Networks 中构建了三类子图，这三类子图分别捕获不同的信息；
本文模型取得了良好的实验效果，并比目前SOTA模型得到了6–15倍的加速。

二. 相关工作

介绍中文NER: 对于边界不明显的中文NER问题，利用词语的边界和语义信息是非常重要的；
图神经网络: 首先简要介绍了GCN和GAT, 然后提出现有利用GCN解决中文NER问题的模型都是依赖句法依赖树来建立一个单个的图，较容易受到错误传播的影响；因此本文提出的模型中包含根据三种方法构建三种子图，能够避免错依赖树解析误差的影响。

三. 模型

构图

Containing-Graph(C-Graph):

目的: 辅助字符去捕捉对应self-matched lexicon word的语义信息和边界信息
点集: 句子中的字符和 lexicon words
构图如下:

Transition-Graph(T-Graph)

目的: 捕捉字符最近上下文的语义信息
点集: 句子中的字符和 lexicon words
构图如下: 建立 lexicon words 与字符间和 lexion words间的转移关系图

Lattice-Graph(L-Graph)

目的: 融合 lexicon knolwedge, 且将 Lattice 的 LSTM 结构转变为了图结构;
点集: 句子中的字符和 lexicon words
构图如下:

模型

Encoding 层

用BiLSTM学习句中每个字符的表示；
用预训练的word embedding作为lexicon word的表示；
字符表示和word表示的拼接作为这一层的输出

GAT for three interactive graphs

每个GAT的输入是节点特征表示 $Node={\rm{f}_1, \rm{f}_2, ..., \rm{f}_n}$ 及对应的邻接矩阵，输出是节点的新的表示；GAT 的操作通过 $k$ 个头如下进行:

在最后一层，通过Average得到最后的表示:

C-Graph, T-Graph 和 L-Graph 都通过如上的GAT操作得到字符和lexicon word的表示；然后去掉 lexicon words 的表示，保留下字符的表示作为最终的输出。

Fusion-Layer

Fusion-Layer目标在于将三个Graph所得的 lexicon knowledge 进行融合。Fusion-Layer的输入是BiLSTM得到的字符表示 $H$ 和三个GAT得到的字符表示 $Q_1, Q_2, Q_3$ , 通过如下方法fusion:

Decode

通过CRF对字符表示进行解码，得到标注结果；

四. 实验

主要介绍了数据集、实验超参设置、实验总体结果 ，并进行以下消融实验

研究三种Graph的影响

作者分别去掉三种graph中的一种或两种进行试验，结论是每种graph都可以单独使用，但三者联合使用得到最好的效果。

五. Case Study

通过对两则实例分别去掉 C-Graph 和 T-Graph 的实验结果进行了对比:

了解更多论文分享信息，请关注公众号深度学习的知识小屋

御风而行Carrie

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
[论文笔记]EMNLP2019: Leverage Lexical Knowledge for Chinese NER via Collaborative Graph Network

论文链接论文代码一. 介绍Motivation作者首先介绍了lexical word information对中文NER的重要性，并提出 lexical word 实际包含了两重信息: 一是词语的边界信息，二是词语的语义信息。基于此结合现有工作，作者提出了两项挑战：如何融合self-matched words.一个字符的 self-matched lexical words ...
复制链接

扫一扫