lucene下的contrib包介绍

analyzers 下分为两个包:

common :提供了各种常用的分词工具,比如cjk分词,ChineseAnalyzer分词,以及泰语分词,巴西语言分词,荷兰语言分词等好多种语言的分词

smartcn

SmartChineseAnalyzer 是一个智能中文分词模块, 能够利用概率对汉语句子进行最优切分, 并内嵌英文 tokenizer,能有效处理中英文混合的文本内容。 它的原理基于自然语言处理领域的隐马尔科夫模型(HMM), 利用大量语料库的训练来统计汉语词 汇的词频和跳转概率, 从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分。 因为智能分词需要词典来保存词汇的统计 值,SmartChineseAnalyzer的运行需要指定词典位置,如何指定词典位置请参 考 org.apache.lucene.analysis.cn.smart.AnalyzerProfile
SmartChineseAnalyzer
ant:
通过ant创建索引
Ant task to create Lucene indexes. 
db
我可以把Lucene的索引保存在BerkeleyDB中么?
可以,你可以使用BerkeleyDB保存Lucene索引。使用DbDirectory对象即可。
Berkeley DB Java Edition (JE)是一个完全用JAVA写的,它适合于管理海量的,简单的数据。
highlighter:高亮
lucli
使用Lucene命令行接口LUCLI(Lucene Cmmand-Line Interface)。LUCLI是通过命令行操作索引信息的第三方工具
memory内存索引
regex正则表达式搜索
remote远程搜索
snowball经典分词用具 主要支持欧洲语言
spatial位置感知搜索
spellchecker拼写检查,这个不错,比如用户搜索输错了,可以给用户一个提示
wordnet好像和同义词有关
xml-query-parser
不确定的包:
benchmark:好像和压力测试有关
collation:没看明白,不知道干嘛用:新增的Unicode支持及字符集(Collation)。
fast-vector-highlighter为大型文本新增快速向量高亮工具(fast-vector-highlighter)
instantiated:InstantiatedIndex,小型语料库替代的RAM存储
misc
queries
queryparser
surround
swing
wikipedia
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值