一、几个项目github star对比
在网上可以看到很多中文分词器的文章,但是都没说明白到底选择什么。当然一般来说没有最好的只有最合适的,在分词能力、繁体支持等等都可考虑的方向。当然github上的star也可以作为开源项目选择的一个依据。
HanLP github 21.4k star
https://github.com/hankcs/HanLPgithub.com
jieba github 24.9k star
fxsjy/jiebagithub.com
ik-analyzer github 589 star
可以看到ik-analyzer和es solr等都有集成好像589star比较少,当然ik-analyzer主要是在code.google里,当最近一次code.google更新的版本也只是2012年的版本
wks/ik-analyzergithub.com
ansj_seg 5.7k
NLPchina/ansj_seggithub.com
个人建议使用jieba分词器
二、具体说明
(1)Hanlp分词器
hankcs/HanLPgithub.com
最短路径分词,有中文分词、词性标注、新词识别、命名实体识别、自动摘要、文本聚类、情感分析、词向量word2vec等功能,支持自定义词典;
采用HMM、CRF、TextRank、word2vec、聚类、神经网络等算法;
支持Java,C++,Python语言;
(2)结巴分词
https://github.com/fxsjy/jiebagithub.com
找出基于词频的最大切分组合,有中文