命名实体识别属于词性标注问题
基于规则:
- 如:NTU系统、FACILE系统、OKI系统。
- 缺点:缺乏鲁棒性和可移植性,对于每个新领域的文本都需要更新规则来保持最优性能,而这需要大量的专门知识和人力,代价往往非常大。
基于统计:
- 隐马尔科夫模型(HMM)
- 条件随机场(CRF):相当于增加了规则
- 一般使用特征模板+CRF
- 缺点:性能较基于规则的方法而言偏低,因为基于统计的方法获取的概率知识总赶不上人类专家的专业知识的可靠性,而且有些知识获取必需专家的经验。
基于神经网络
- 一般使用Bi-LSTM
- 缺点:只使用lstm没有考虑规则
混合方法(LSTM+CRF):
参考https://blog.csdn.net/qq_36426650/article/details/84668741