java jcseg 官网_【行业资讯】Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包 - 思诚科技...

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!

Jcseg 2.2.0更新内容如下:

检索模式SearchSeg增加粒度控制,切分单字,例如:”人民币“切分为”人,民,币,人民,人民币“。

同义词统一解决方案:同义词单独管理,同义词之间自动相互引用,同义词追加和自动合并(REAMD中增加了详细的同义词说明文档)。

单个词条多实体支持,词条的实体可以定义多个,IWord#Entity变为数组。

NLP切分优化,修复datetime,time实体识别和其他部分bug。

词库优化。

关于同义词:

同义词具体格式参考码云项目下的vendors/lexicons/lex-synonyms.lex

451bb3db1d6db230652f394b09d4759d.png

在词库的第一行增加CJK_SYN,定义其为同义词词库即可,可以建立多个。

1,基本格式如下:词根,同义词1[/可选拼音],同义词2[/可选拼音],...同义词n[/可选拼音]

例如:研究,研讨,研发,研磨/yan mo2,同义词要求:01),第一个词条为词根,这个词条必须是CJK_WORD词库中已有的词条02),其他同义词可以不用存在,jcseg会自动将其加入词库,并且词条之间相互引用同义词03),同义词会继承词根的词性和实体定义,也会继承本词条的拼音(如果该词条存在),也可以在其后自定义拼音。

该版本已经在自己的NLP平台中稳定运行3个月+,稳定性已经经过压测,NLP需求的重点升级!

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值