一款基于字典的中文分词器Shuzhen分词器

ShuzhenAnalyzer是一款用java写的基于字典的中文分词器,可与Lucene一起使用构建搜索引擎。
见网址:
[url]http://www.shuzhen.net[/url]
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ShuzhenAnalyzer-1.1.3是一款java写的基于字典中文分词,可以与Lucene(目前只测试了与Lucene2.2.0版本一起使用的情况,其他版本Lucene版本未测试过)一起使用来构建搜索引擎系统 其特性如下: 1、基于字典系统分词,采用了JDBM文件数据库系统来作为字典系统,字典系统数量理论上可以趋于无穷多而绝不会出现内存溢出现象 2、在1中的前提下,索引创建及搜索速度受字典条目数量影响小到可以忽略不计 3、可以很方便对字典系统进行管理,管理功能如下: 3.1、往字典系统中增加单个条目 3.2、往字典系统中增加多个条目 3.3、利用txt文件往字典系统中批量增加多个条目 3.4、删除字典系统中指定的某一个条目 4、对搜索词提供了两种处理方式,可以更好地应用在不同需求的系统中,提高搜索结果的质量 如:字典条目中如果存在 功夫熊猫、有趣 两个条目,搜索词为:功夫熊猫是很有趣的一部电影, 那么用两种方式分别对此搜索词进行处理过的结果如下: 第一种处理后的结果:功夫熊猫 是 很 有趣 的 一 部 电 影 第二种处理后的结果:功夫熊猫 有趣 值得特别注意的是:在对搜索词进行处理时忽略了以下几个特殊符合:!、|、-、",主要是为了满足关键词中特殊字符的要求,比如在google搜索中,用"关键词"表示结果中必须包含双引号包含的关键词,在lucene中, 用"关键词1 -关键词2"表示搜索结果中包含关键词1但不包含关键词2等 最新版本请参见:http://www.shuzhen.net
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值