Jcseg java中文分词器

jcseg是一款基于Java开发的开源中文分词器,采用mmseg算法,支持lucene, solr, elasticsearch接口。具备多种切分模式,自定义词库功能,并提供词库管理工具。此外,jcseg支持中文数字、分数识别,中英混合词切分,同义词和拼音追加,以及智能中文人名识别等功能。" 136356759,10526265,QML与JavaScript结合:自定义方法与信号绑定,"['QML', 'javascript', 'qt', 'c++']
摘要由CSDN通过智能技术生成

 

 

Jcseg[dʒɛ'​ke'sɛ]完整版本(源码, 词库, 帮助文档, 词库管理工具, jar文件)下载: http://sourceforge.net/projects/jcseg 

一. 关于jcseg:

jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene, solr, elasticsearch(New)的分词接口.

1。目前最高版本:jcseg-1.9.5。兼容最高版本lucene-4.x,solr-4.x,elasticsearch

2。三种切分模式:

    (1).简易模式:FMM算法,适合速度要求场合。
    (2).复杂模式-MMSEG四种过滤算法,具有较高的岐义去除,分词准确率达到了98.41%。
    (3).(!New)检测模式:只返回词库中已有的词条,很适合某些应用场合。(1.9.4版本开始)

3。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。参考下面了解如何给jcseg添加词库/新词。

4。(!New) 支持词库多目录加载. 配置lexicon.path中使用';'隔开多个词库目录.

5。(!New)词库分为简体/繁体/简繁体混合词库: 可以专门适用于简体切分, 繁体切分, 简繁体混合切分, 并且可以利用下面提到的同义词实现,简繁体的相互检索, jcseg同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值