中文分词评测

中文分词评测

4种基于Python第三方库的的中文分词方案的速度和精度。
- jieba https://github.com/fxsjy/jieba
- THULAC-Python https://github.com/thunlp/THULAC-Python
- pynlpir https://github.com/tsroten/pynlpir
- pyltp https://github.com/HIT-SCIR/pyltp

测试环境:2.9 GHz Intel Core i5

评测数据

采用SIGHAN(国际计算语言学会(ACL)中文语言处理小组)举办的国际中文语言处理竞赛Second International Chinese Word Segmentation Bakeoff所提供的公开数据进行评测,该数据及包含了多个测试集以及对应的黄金标准分词结果。

jieba

精确模式:试图将句子最精确地切开,适合文本分析;
全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客
应支付0元
点击重新获取
扫码支付

支付成功即可阅读