lucene下的contrib包介绍

最新推荐文章于 2017-12-01 15:29:25 发布

johnny_hg

最新推荐文章于 2017-12-01 15:29:25 发布

阅读量222

点赞数

分类专栏： Java 文章标签： lucene Ant 正则表达式 Swing 领域模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/johnny_hg/article/details/83707565

版权

Java 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

analyzers 下分为两个包：

common ：提供了各种常用的分词工具，比如cjk分词，ChineseAnalyzer分词，以及泰语分词，巴西语言分词，荷兰语言分词等好多种语言的分词

smartcn

SmartChineseAnalyzer 是一个智能中文分词模块，能够利用概率对汉语句子进行最优切分，并内嵌英文 tokenizer，能有效处理中英文混合的文本内容。它的原理基于自然语言处理领域的隐马尔科夫模型(HMM)，利用大量语料库的训练来统计汉语词汇的词频和跳转概率，从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分。因为智能分词需要词典来保存词汇的统计值，SmartChineseAnalyzer的运行需要指定词典位置，如何指定词典位置请参考 org.apache.lucene.analysis.cn.smart.AnalyzerProfile

SmartChineseAnalyzer

ant:

通过ant创建索引

Ant task to create Lucene indexes.

db

我可以把Lucene的索引保存在BerkeleyDB中么？

可以，你可以使用BerkeleyDB保存Lucene索引。使用DbDirectory对象即可。

Berkeley DB Java Edition (JE)是一个完全用JAVA写的，它适合于管理海量的，简单的数据。

highlighter：高亮

lucli

使用Lucene命令行接口LUCLI（Lucene Cmmand-Line Interface）。LUCLI是通过命令行操作索引信息的第三方工具

memory内存索引

regex正则表达式搜索

remote远程搜索

snowball经典分词用具主要支持欧洲语言

spatial位置感知搜索

spellchecker拼写检查，这个不错，比如用户搜索输错了，可以给用户一个提示

wordnet好像和同义词有关

xml-query-parser

不确定的包：

benchmark：好像和压力测试有关

collation：没看明白，不知道干嘛用：新增的Unicode支持及字符集（Collation）。

fast-vector-highlighter为大型文本新增快速向量高亮工具（fast-vector-highlighter）

instantiated：InstantiatedIndex，小型语料库替代的RAM存储

misc

queries

queryparser

surround

swing

wikipedia

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。