jieba
主要接口
cut
https://github.com/fxsjy/jieba
默认精准切词,尽量保留长词
cut_all模式,在精准模式下增加一些短词
cut_for_search
切出尽量多的词用于搜索
特性
日常切词效果最好,比如三个字的动词一般会比较全,“打不开”,“扫一扫”,如何实现的,目前未知? 但多个字的名词会容易切掉,可能主要原因是语料较老,主要是1998人民日报
算是目前实用性较高的工具
目前最有效的方法就是将清华的高质量词库以及自己整理的专有词库导入jieba
jieba与其他最大的区别是,jieba以预先整理的词库为优先,尽量匹配最长的词。而其他是通过模型预测BMES,再分词,对训练语料依赖高
pkuseg
特性
主要基于人民日报,三个字的动词或形容词会容易切断,比如“打不开”,“好得多”
https://github.com/lancopku/PKUSeg-python
thulac
特性
与pkuseg效果基本差不多,主要基于人民日报
https://github.com/thunlp/THULAC-Python
nlpir
特性
与pkuseg效果基本差不多,主要基于人民日报
BI-LSTM + CRF
特性
与pkuseg效果基本差不多,主要基于2014人民日报
偶尔还能比前三个更好,比如“门禁卡号”
https://github.com/GlassyWing/bi-lstm-crf
其他资料
中文各领域词库,含词频(IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物)/清华2016
https://github.com/thunlp/THUOCL
经验
在中英文混杂复杂的情况下,建议将中英文分开处理再合并,能保证特殊英语词会的完整切词
各分词工具对比 jieba、pkuseg、thulac、nlpir、基于BI-LSTM+ CRF自训练
最新推荐文章于 2024-09-28 07:45:00 发布