《Lattice LSTM神经网络法中文医学文本命名实体识别模型研究》2019
经证实,英文NER的最高水准是使用LSTM-CRF模型。中文NER使用基于字的分词比基于词的分词效果好。本文使用Lattiice-LSTM实现中文分词,及字词表征。效果优于前两种方法。
一、模型步骤
1.Lattiice-LSTM分词+表征词汇
点阵长短期记忆网络Lattiice-LSTM不仅可以自动学习到上下文信息。与基于字的分词方法相比,该方法可以使用显式词语信息而非字符序列标注,进而解决语境潜在命名实体的问题。(常规方法总是先基于字或词划分句子,再应用词序列进行标注))
例如:“精神病性障碍”将不会被划分为“精神病”和“性障碍”。
2.LSTM-CRF
将上述提取的潜在信息整合到基于字符的LSTM-CRF中。LSTM实现实体识别,CRF实现最优标记排序。