中文分词器 jcseg

jcseg是使用Java开发的一个中文分词器,使用流行的mmseg算法实现。

1。目前最高版本:jcseg 1.6.9

2。mmseg四种过滤算法,分词准确率达到了97%以上。

3。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。如何给jcseg添加词库/新词

4。中文数字识别,例如:"四五十个人都来了,管他叁柒贰拾壹。"中的"四五十"和"叁柒贰拾壹"。(1.6.7版开始支持)

5。支持中英混合词的识别。例如:B超。

6。支持基本单字单位的识别,例如2012年。

7。智能圆角半角处理。

8。特殊字母识别:例如:Ⅰ,Ⅱ

9。特殊数字识别:例如:①,⑩

10。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)

11。智能中文人名识别。中文人名识别正确率达90%以上。(可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来去除歧义,提高准确率)。

12。jcseg佩带了jcseg.properties配置文档,我们可以自主的配置这个配置文档来适应不同的应用领域。例如:最大化分词的词数,是否开启中文分词(如果你的搜索领域不要处理中文人名识别,去掉这个选项可以提高jcseg的分词速度),中英混合词后的中文词数。

详细了解jcseg:jcseg google code

下载地址:下载jcseg 


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值