中文分词评测

中文分词评测

4种基于Python第三方库的的中文分词方案的速度和精度。
- jieba https://github.com/fxsjy/jieba
- THULAC-Python https://github.com/thunlp/THULAC-Python
- pynlpir https://github.com/tsroten/pynlpir
- pyltp https://github.com/HIT-SCIR/pyltp

测试环境:2.9 GHz Intel Core i5

评测数据

采用SIGHAN(国际计算语言学会(ACL)中文语言处理小组)举办的国际中文语言处理竞赛Second International Chinese Word Segmentation Bakeoff所提供的公开数据进行评测,该数据及包含了多个测试集以及对应的黄金标准分词结果。

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页