jieba java_结巴分词 java 高性能实现，优雅易用的 api 设计，性能优于 huaban jieba 分词...

最新推荐文章于 2024-08-06 10:19:49 发布

涡涡头

最新推荐文章于 2024-08-06 10:19:49 发布

阅读量655

点赞数

文章标签： jieba java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32866779/article/details/114400927

版权

jieba-java是一个高性能的Java分词库，旨在提供灵活的配置选项和更好的繁体中文支持。它具有面向用户的简单API和面向开发者的Fluent API，基于DFA实现高速分词，还支持HMM新词预测和多种分词模式。此外，该项目还提供了中文繁体分词、格式化处理以及自定义词库等功能。

摘要由CSDN通过智能技术生成

Segment

Segment 是基于结巴分词词库实现的更加灵活，高性能的 java 分词实现。

创作目的

分词是做 NLP 相关工作，非常基础的一项功能。

jieba-analysis 作为一款非常受欢迎的分词实现，个人实现的 opencc4j 之前一直使用其作为分词。

但是随着对分词的了解，发现结巴分词对于一些配置上不够灵活。

(1)有很多功能无法指定关闭，比如 HMM 对于繁简体转换是无用的，因为繁体词是固定的，不需要预测。

(2)最新版本的词性等功能好像也被移除了，但是这些都是个人非常需要的。

(3)对于中文繁体分词支持不友好。

所以重新实现了一遍，希望实现一套更加灵活，更多特性的分词框架。

而且 jieba-analysis 的更新似乎停滞了，个人的实现方式差异较大，所以建立了全新的项目。

Features 特点

面向用户的极简静态 api 设计

面向开发者 fluent-api 设计，让配置更加优雅灵活

详细的中文代码注释，便于源码阅读

基于 DFA 实现的高性能分词

基于 HMM 的新词预测

支持不同的分词模式

支持全角半角/英文大小写/中文繁简体格式处理

允许指定自定义词库

最新变更

支持中文繁体分词

快速入门

准备

jdk1.7+

maven 3.x+

maven 引入

com.github.houbb

segment

0.1.2

默认分词示例

返回分词，下标等信息。

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱学习。";

List resultList = SegmentHelper.segment(string);

Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14), 我[14,15), 叫[15,16), 孙悟空[16,19), ，[19,20), 我爱[20,22), 北京[22,24), ，[24,25), 我爱[25,27), 学习[27,29), 。[29,30)]", resultList.toString());

指定返回形式

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。