Segment
Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现。
创作目的
分词是做 NLP 相关工作,非常基础的一项功能。
jieba-analysis 作为一款非常受欢迎的分词实现,个人实现的 opencc4j 之前一直使用其作为分词。
但是随着对分词的了解,发现结巴分词对于一些配置上不够灵活。
(1)有很多功能无法指定关闭,比如 HMM 对于繁简体转换是无用的,因为繁体词是固定的,不需要预测。
(2)最新版本的词性等功能好像也被移除了,但是这些都是个人非常需要的。
(3)对于中文繁体分词支持不友好。
所以重新实现了一遍,希望实现一套更加灵活,更多特性的分词框架。
而且 jieba-analysis 的更新似乎停滞了,个人的实现方式差异较大,所以建立了全新的项目。
Features 特点
面向用户的极简静态 api 设计
面向开发者 fluent-api 设计,让配置更加优雅灵活
详细的中文代码注释,便于源码阅读
基于 DFA 实现的高性能分词
基于 HMM 的新词预测
支持不同的分词模式
支持全角半角/英文大小写/中文繁简体格式处理
允许指定自定义词库
最新变更
支持中文繁体分词
快速入门
准备
jdk1.7+
maven 3.x+
maven 引入
com.github.houbb
segment
0.1.2
默认分词示例
返回分词,下标等信息。
final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。";
List resultList = SegmentHelper.segment(string);
Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14), 我[14,15), 叫[15,16), 孙悟空[16,19), ,[19,20), 我爱[20,22), 北京[22,24), ,[24,25), 我爱[25,27), 学习[27,29), 。[29,30)]", resultList.toString());
指定返回形式