摘要
文章提出了一种将【字】和所有【潜在词组】作为输入的模型。其有以下优势:
- 对于基于字的方法:模型利用了词组的信息
- 对于基于词的方法:模型设计了门控机制,解决了分词错误问题。
一、简介
文章为了在避免分词错误的情况下利用词信息,设计了一种Lattice LSTM
的结构,其可以自动学习一些词组,作为输入。示意图如下:
二、模型
2.1 基于字的模型
模型概略图如下所示:
其中,输入又可以更加详细地分为以下三种:
- 单独的字:
- 当前字和后面一个字拼接:
- 当前字和当前字所在切割词的标签(使用
BMES
标记形式)
2.2 基于词的模型
模型概略图如下所示:
其中,输入又可以更加详细地分为:
- 单独的词
- 词+Char LSTM
- 词+Char CNN
2.3 Lattice Model
该模型的具体解释可以参看此博客.
三、实验结果
由于数据集较多,就不一一写出来了,不过实验结果确实证明了Lattuce
模型的有效性,并且能够解决一些具有歧义句子的命名实体识别问题,如下图所示:
指导性结论
- 对于中文NER来说,基于字符的NER比基于词的NER表现更好