java jcseg 官网_Jcseg轻量级中文分词器发布 2.6.2 Java轻量级开源自然语言处理包...

jcseg 2.6.2版更新支持lucene 8.20、solr 8.2.0和Elasticsearch 7.4.2,新增solr和elasticsearch索引级别的分词配置,优化分词、同义词处理,并增强英文和拼音切分,提供更丰富的自然语言处理功能。
摘要由CSDN通过智能技术生成

Jcseg是基于mmseg算法的一个轻量级中文分词器,是Java轻量级开源自然语言处理包。同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!

2.6.2版本主要更新内容如下:

1,升级到对lucene 8.20,solr 8.2.0和Elasticsearch的7.4.2版本的支持,Gitee搜索目前用的Elasticseach 7.4.2版本。

2,增加solr和elasticsearch索引级别的分词配置,可以不同索引使用不同的分词配置,具体可以参考Gitee搜索资源分享中的mapping:https://gitee.com/oschina/gitee-search-share。

3,部分已有词库的优化,拼音,词性,同义词等。

4,二次切分优化,增加中英混合词的的二次切分支持。

5,增加n-gram切分模式,可以自定义n,实现n-gram的切分,例如:”中文分词“ 1-gram会被切分成”中 文 分 词“,此功能在Gitee的搜索提示中用到了。

3011654098e90a2750f98f3dc8f2ccce.png

6,增加英文词条的切分,大部分的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值