HanLP - 汉语言处理包

[url=http://hanlp.linrunsoft.com/]HanLP - 汉语言处理包[/url]

HanLP v1.2.8的特征:

最高分词速度2,000万字/秒(极速分词,2.0GHz i7)
35万词典,覆盖现代汉语常用词、网络新词等
337万接续BiGram文法模型
500 ms 词典加载
训练自2014年人民日报切分语料
词语标注集兼容《ICTPOS3.0汉语词性标记集》
词语标注集兼容《现代汉语语料库加工规范——词语切分与词性标注》
最低内存要求120 MB(-Xms120m -Xmx120m -Xmn64m)
基于双数组Trie的AhoCorasick自动机算法实现O(n)多模式匹配
运行于Java6+
提供Lucene插件,兼容Lucene4.x
Apache License Version 2.0
HanLP产品初始知识产权归上海林原信息科技有限公司所有,任何人和企业可以无偿使用,可以对产品、源代码进行任何形式的修改, 可以打包在其他产品中进行销售。任何使用了HanLP的全部或部分功能、词典、模型的项目、产品或文章等形式的成果必须显式注明HanLP及此项目主页。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值