基于网格LSTM的中文命名实体识别
本文idea提出原因
中文命名实体识别的实体边界划分特别难。
基于字符级别:无分词错误,缺少词的边界信息,利用不了已有词典
基于词级别:有分词错误,因为只能有一种分词
深度学习一定程度上解决了对词典的依赖
如何利用现有词典,引入所有可能词的边界信息?
研究成果:
>动态引入所有可能的词信息
>克服了基于词模型的分词错误问题
>能自动选择适合当前上下文的可能分词
>融合字词向量的信息,更好的上下文提取模型
>句子长度增加,模型相对更加鲁棒
引入词汇增强解决中文NER问题
融合字词信息的动态网络结构
摘要核心
- 基于字符级别的中文NER无法引入分词结构的先验信息
- 基于词级别的中文NER会引入分词错误
- 提出Lattice LSTM网络结构,以字符级别为基础,动态融入词级别的信息
Baseline模型
输入表示:字、词、特征或者互相融合
特征抽取:CNN/LSTM/BiLSTM/Transformer
解码:CRF>Softmax