搜集了一些资料,与同学一起进行了简单的测试,总结如下。
分词工 具 特点
|
支持语言 |
原理 |
词典及扩展性 |
StandardAnalyzer |
中文、英文(unicode) |
中文:单字符切分 英文:根据空格切分 |
|
ChineseAnalyzer |
中文,不支持中文和英文及数字混合的文本分词 |
按字分词,与StandardAnalyzer对中文的分词没有大的区别 |
|
CJKAnalyzer |
中文,英文,不支持中文和英文及数字混合的文本分词 |
采用的双字切分,也就是对一段文字按每两个字来进行切分 |
|
IKAnalyzer |
英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符 |
正向迭代最细粒度切分算法(词典+文法分析) |
收录27万中文词汇, 支持用户词典扩展定义、支持自定义停止词 |
paoding |
中文 |
支持不限制个数的用户自定义词库 |
|
MMAnalyzer |
支持英文、数字、中文(简体)混合分词 |
正向最大匹配算法 |
支持动态扩展 |
MMSeg4j |
中文,包括一些字符的处理 英文、俄文、希腊、数字(包括①㈠⒈)的分出一连串的。目前版本没有处理小数字问题 |
用 Chih-Hao Tsai 的 MMSeg 算法。MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。在complex基础上实现了最多分词(max-word) |
强制使用 UTF-8) 使用sougou词库,也可自定义覆盖 |
imdict |
中文、英文、数字 |
隐马尔科夫模型 |
仅coredict核心字典、bigramdict词典,不含人名、地名词典。不支持自定义词典</ |