中文分词工具介绍
分词工具 | 支持语言 | 原理 | 分词速度 | 文档完整性 | 词典及扩展性 |
NLPIR(ICTCLAS) | 中文、英文 | 隐马尔科夫模型(HHMM) | 50万字/秒 (996Kb/s) | 详细 | 支持单条导入用户词典,也可以批量导入用户词典 |
IKAnalyzer | 英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符 | 正向迭代最细粒度切分算法 | 83 万字/秒(1600Kb/s) | 详细 | 收录27万中文词汇, 支持用户词典扩展定义、支持自定义停止词 |
Paoding-Analysis | 中文 | 100万字/秒 (1900Kb/s) | 极少 | 支持不限制个数的用户自定义词库 | |
MMSeg4j | 中文,包括一些字符的处理 英文、俄文、希腊、数字 | 用Chih-Hao Tsai 的MMSeg 算法。MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。在complex基础上实现了最多分词(max-word) | Complex 60万字/秒(1200Kb/s) Simple 97万字/秒 1900Kb/s | 极少 | 使用sougou词库,也可自定义覆盖 |
Imdict-Chinese-Analyzer | 中文、英文、数字 | 隐马尔科夫模型(HHMM) | 25万字/秒 (480Kb/s) | 极少 | 算法和语料库词典来自于ictclas1.0项目 |
JE-Analysis | 中文、英文、数字 | 极少 |