题目:Simplify the Usage of Lexicon in Chinese NER
来源:ACL 2020
原文链接:
https://www.aclweb.org/anthology/2020.acl-main.528.pdf
转载请注明出处:学习ML的皮皮虾
Introduction
中文由于不存在自然的token之间的划分,在进行NER任务时往往需要先分词再做NER,但这样由于分词的误差可能导致实体边界识别错误。最近的一些工作在中文字符级别进行NER取得了不错的效果。
然而,在字符级别的NER模型中,词语的信息没法被完全利用。为了解决这一问题,Zhang and Yang (2018) 提出了Lattice-LSTM,保留所有能够匹配的单词信息,让模型选择具体使用哪一个。然而,本文作者认为Lattice-LSTM结构过于复杂(采用在非相邻字符中添加连接的方式,因此和LSTM的结构依赖较强),难以在工业场景下应用。为此,作者提出了简化的思路,希望能在中文字符级别NER的模型中融入字典信息,同时能够轻松更改模型的基础结构(例如LSTM -> CNN、BERT)。本文的贡献:
提出了一个简单而有效的方法,将词典的信息融入到字符级别的中文NER中;
所提出的方法可以融入到不同的序列标注架构,同时可以融入到预训练语言模型例如BERT中。
Background
Softword Feature
Softword指的是在word embedding中融入分词信息,常用于在字符级中文模型中使模型具有感知分词的能力。其做法是为B、M、E、S增加一个额外的embedding矩阵,然后将其与字编码拼接,作为每个字的表示输入模型:
通常情况下,
Lattice-LSTM
Lattice-LSTM首先通过词表去匹配句子,当其中的一个子序列
匹配时,将为