[Lucene] Lucene入门心得

RangerWolf

于 2014-02-06 10:29:48 发布

阅读量119

点赞数

分类专栏： Java Lucene 文章标签： Lucene java 分词

Java Lucene 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

主要参考文章： http://www.cnblogs.com/dyllove98/archive/2013/06/19/3144919.html

但是我利用了搜狗的语料库来进行测试：http://www.sogou.com/labs/dl/c.html

此次使用的是其mini版 demo而已嘛:)

主要代码可以参考来源的博客，基本上copy到eclipse之中就能用。本人小小改动了一下而已。

唯一想说的就是，本人打开lucene的压缩包之后，发现了数不清的jar 包，顿时就无语不知所措了~

实际上，对于一个普通的创建索引+搜索的任务，会需要下面几个包就可以了：

(1) core / lucene-core-4.6.1.jar

这个是核心类库，少不了的

(2) analysis \ common \ lucene-analyzers-common-4.6.1.jar

普通分词的类库。其他的比如icu之中的jar包，是不同算法实现的。暂时没有深究

(3) queryparser \ lucene-queryparser-4.6.1.jar

这个是查询的时候需要的，如果仅仅是做分词、创建索引无需这个jar包

运行LuceneSearch.java

其中我搜索的关键词是：集团

结果：

正在检索关键字 : 集团
检索完成，用时17毫秒
这是第0个检索到的结果，文件名为：e:\lucene\file\10.txt
这是第1个检索到的结果，文件名为：e:\lucene\file\16.txt
--------------------------

作为对比，使用Apache Commons IO的FileUtils进行纯文件读并查询，结果如下：

e:\lucene\file\10.txt
e:\lucene\file\16.txt
耗时:26毫秒

因此可以看到，创建了索引的搜索速度还是要提高不少的。

PS: 这个搜索结果的时间，第一次可能会比较长，达到60+毫秒，那可能是因为需要把.java变成.class

最后贴一下我的项目截图：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[Lucene] Lucene入门心得

主要参考文章： http://www.cnblogs.com/dyllove98/archive/2013/06/19/3144919.html但是我利用了搜狗的语料库来进行测试：http://www.sogou.com/labs/dl/c.html此次使用的是其mini版 demo而已嘛:) 主要代码可以参考来源的博客，基本上copy到eclipse之中就能用。本人小小改动了一...
复制链接

扫一扫

专栏目录

RangerWolf CSDN认证博客专家 CSDN认证企业博客

码龄17年

36: 原创

53万+: 周排名

135万+: 总排名

3万+: 访问

: 等级

279: 积分

32: 粉丝

1: 获赞

1: 评论

9: 收藏

私信

关注

热门文章

分类专栏

最新评论

用java读取ini文件（支持中文）
_平凡之路_: 本人在老外大神的IniEditor.java基础之上，做了一些修改： 1. 增加了文件编码类型自动检测，源文件是什么编码类型，保存后仍然是什么类型。支持GB2312, UTF-8，其它格式没测试过，有兴趣的朋友可以自行测试。 2. IniEditor.java原本不支持Section后面写注释，比如“[Section] #注释”，你即使写了注释，用IniEditor一保存注释就给弄没了，变成了“[Section]”。修改后已经可以支持。下载链接：https://download.csdn.net/download/dangbochang/18208219 [code=java] boolean sectionAdded = false; if (line.length() > endIndex + 1) { int len = line.length(); for (int i = endIndex + 1; i < len; i++) { if ((Arrays.binarySearch(this.commentDelimsSorted, line.charAt(i))) >= 0) { addSection(curSection, line.substring(endIndex + 1)); sectionAdded = true; break; } } } if (!sectionAdded) { addSection(curSection); } [/code]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。