几种开源分词工具的比较

最新推荐文章于 2024-07-21 16:10:55 发布

wauwa

最新推荐文章于 2024-07-21 16:10:55 发布

阅读量5.8w

点赞数 2

分类专栏：全文搜索引擎文章标签：工具 lucene qq 算法扩展文档

本文链接：https://blog.csdn.net/wauwa/article/details/7865526

版权

本文通过对各种开源分词工具的测试，展示了它们在分词效果、消歧义处理及混合文本分词上的表现，提供了相关资料和测试结果。

摘要由CSDN通过智能技术生成

搜集了一些资料，与同学一起进行了简单的测试，总结如下。

分词工具特点	支持语言	原理	词典及扩展性
StandardAnalyzer	中文、英文（unicode）	中文：单字符切分英文：根据空格切分
ChineseAnalyzer	中文，不支持中文和英文及数字混合的文本分词	按字分词,与StandardAnalyzer对中文的分词没有大的区别
CJKAnalyzer	中文，英文，不支持中文和英文及数字混合的文本分词	采用的双字切分，也就是对一段文字按每两个字来进行切分
IKAnalyzer	英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符	正向迭代最细粒度切分算法(词典+文法分析）	收录27万中文词汇，支持用户词典扩展定义、支持自定义停止词
paoding	中文	支持不限制个数的用户自定义词库
MMAnalyzer	支持英文、数字、中文（简体）混合分词	正向最大匹配算法	支持动态扩展
MMSeg4j	中文，包括一些字符的处理英文、俄文、希腊、数字（包括①㈠⒈）的分出一连串的。目前版本没有处理小数字问题	用 Chih-Hao Tsai 的 MMSeg 算法。MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。在complex基础上实现了最多分词(max-word)	强制使用 UTF-8) 使用sougou词库，也可自定义覆盖
imdict	中文、英文、数字	隐马尔科夫模型	仅coredict核心字典、bigramdict词典，不含人名、地名词典。不支持自定义词典</