简介
本文主要提出了一种对于LSTM的魔改。针对的任务是中文的NER任务。
名词解释
NER
Named Entity Recognition,命名实体识别。比如说小明就是人命,上海就是地点。学术上NER所涉及的命名实体一般包括3大类(实体类,时间类,数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。对于其他任务来说,通过NER可以提供更多的有效的信息。
CRF
Conditional Random Field.条件随机场。在神经网络后接CRF层(重点是利用标签转移概率)来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。
Bi-LSTM-CRF
一个直观的例子
图中的B代表begin,E代表end。O字母代表不属于命名实体的一部分。
过去的方法
一般分为两种,一种是基于字符的,另一种这是基于词的。过去的研究者也尝试将词的信息和字符的信息互相引入各自的模型当中。
基于字符模型的改进
Char+bichar:结合了自己的向量和两个字符的向量作为用来判断的向量
Char+softword:结合自己的向量和使用一个分词分好之后是B(短语首字母),M(middle),E(end),S(单个词)的label向量来作为判断的向量
基于词模型的改进
Word+char LSTM: 把word embedding结合使用双向lstm学习到的字符影藏层信息。
Word+char LSTM’:就是将把上面的LSTM改为了单向的。
Word+char CNN: 词向量结合对字符向量做卷积。
Lattice model
以上就作者魔改的LSTM网络。作者在这里不仅输入了字符序列,而且还输入了与能够从字典中找到与字符组合匹配的词。这里的字典是作者对很多语料进行自动分词后得到的结果。对于细胞状态来说,不单单只有前面的细胞状态的输入,还有外在的词向量的引入。引入的词向量也和LSTM中的常规网络大致一样,只有输入门和遗忘门,最后得到一个向量。引入的时候,在这里加了一个addditional gate.使用softmax的方式在这里分别给不同的输入到细胞状态的流给以不同的权重。
实验结果
词向量的方式利用了char lstm准确率都有所提升。使用CNN比使用lstm的效果好。但是使用bi——char CNN的效果却不尽如人意。使用word+char+bichar得到了最好的效果。但是都比不过作者提出的方法。