1 前言
不知道哪篇文献中提及到了NER的几款最、最、最常见模型:
从图中可以看到,其实CRF和BiLSTM-CRF效果差距不大,本身能省事儿就省事儿的原理,用简单的CPU就可以跑的,pycrfsuite非常符合。
这个开源项目medical_ner_crfsuite已经说得蛮清楚了,而且代码+数据也开源了,笔者就不赘述了。
除了pycrfsuite
,还有sklearn_crfsuite
也是同样的,这个库的使用可以参考:NLP第15课:基于 CRF 的中文命名实体识别模型实现的代码。
课程里面也有练习与数据。
安装:
pip install python-crfsuite
2 训练集样式
2.1 B-I-E-S-O 标准格式
训练集数据标注:我使用的是IOB格式标注体系(采用了四个符号:B、I、E、O),使用txt文件