摘要
文章提出了一种将【字】和所有【潜在词组】作为输入的模型。其有以下优势:
- 对于基于字的方法:模型利用了词组的信息
- 对于基于词的方法:模型设计了门控机制,解决了分词错误问题。
一、简介
文章为了在避免分词错误的情况下利用词信息,设计了一种Lattice LSTM的结构,其可以自动学习一些词组,作为输入。示意图如下:

二、模型
2.1 基于字的模型
模型概略图如下所示:

其中,输入又可以更加详细地分为以下三种:
- 单独的字:

- 当前字和后面一个字拼接:

- 当前字和当前字所在切割词的标签(使用
BMES标记形式)

2.2 基于词的模型
模型概略图如下所示:

其中,输入又可以更加详细地分为:
- 单独的词

- 词+Char LSTM


- 词+Char CNN

2.3 Lattice Model
该模型的具体解释可以参看此博客.
三、实验结果
由于数据集较多,就不一一写出来了,不过实验结果确实证明了Lattuce模型的有效性,并且能够解决一些具有歧义句子的命名实体识别问题,如下图所示:

指导性结论
- 对于中文NER来说,基于字符的NER比基于词的NER表现更好
8921

被折叠的 条评论
为什么被折叠?



