Lucene
iteye_15098
这个作者很懒,什么都没留下…
展开
-
Lucene2.1的新变化
1.9 到 2.0 的改动不是很多,主要是废弃了一些 API , 2.0 起了一个过渡的作用。 2.1 是在 2.0 基础上做了很多的改进,提升了性能,修复了一些 Bug 等。 Lucene2.1 在索引的格式上做了一些改进,所以旧版本的 Lucene 是无法访问 2.1 版的索引文件。但是 2.1 版本的可以读写旧版本的索引文件。保持向下的兼容性。这点需要我们在使用时注意。 下面简单的列出一些新...2007-03-22 22:47:34 · 70 阅读 · 0 评论 -
lucene中的filter器群组及其缓存大盘点
lucene中的filter其实并不起眼,大家对其对性能的影响也不是很关注,但实际上filter是除了单纯搜索以外,其他搜索附加功能的必选组件,其性能很大程度上会直接影响搜索的性能,之前我一直认为filter的性能比query高,但事实说明并不完全如此(这里所说的负荷是指io消耗并不是cpu),实际上在lucene中充满着各种io流,也就是说很多东西都无法从根本上保存,这也给缓存带来了很大难度...原创 2008-07-07 17:56:21 · 111 阅读 · 0 评论 -
[转]Lucene倒排索引原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取...原创 2008-07-07 15:51:16 · 141 阅读 · 0 评论 -
Lucene2.3.2发布了
最新的Lucene2.3.2发布了,主要修改了一些创建和修改索引时候的Bug。======================= Release 2.3.2 2008-05-05 =======================Bug fixes 1. LUCENE-1191: On hitting OutOfMemoryError in any index-modifying...2008-05-08 11:54:28 · 90 阅读 · 0 评论 -
【转】Lucene使用与优化
我认为这篇文章作为入门,对Lucene的总结比较好:1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很...2008-04-17 18:57:39 · 53 阅读 · 0 评论 -
Lucene的评分(score)机制的简单解释
通过Searcher.explain(Query query, int doc)方法可以查看某个文档的得分的具体构成。在Lucene中score简单说是由 tf * idf * boost * lengthNorm计算得出的。tf:是查询的词在文档中出现的次数的平方根idf:表示反转文档频率,观察了一下所有的文档都一样,所以那就没什么用处,不会起什么决定作用。boost:激...2008-04-11 15:46:40 · 330 阅读 · 0 评论 -
BooleanQuery$TooManyClauses的问题
org.apache.lucene.search.BooleanQuery$TooManyClauses: maxClauseCount is set to 1024 at org.apache.lucene.search.BooleanQuery.add(BooleanQuery.java:165) at org.apache.lucene.search.BooleanQuery.a...2007-05-21 17:16:55 · 604 阅读 · 0 评论 -
Lucene搜索优化技巧 - 搜索篇
搜索 1、对于按创建时间的排序可以使用doc.id的方式 new SortField(null, SortField.DOC, reverse)排序方式尽量使用INT类型的字段 也就是按照写入索引的顺序排序 2、对于时间字符串的排序可以转换成整数进行排序 3、去掉不必要的parse 使用TermQuery替换...2008-03-21 18:50:23 · 101 阅读 · 0 评论 -
Lucene搜索优化技巧 - 索引篇
索引 1、t.termText()替换为new String(t.termBuffer(),0,t.termLength()) 2、StringReader 和TokenStream对象都需要close 3、索引时Document只用一个、Field只用几个 一个Document对象对应多个Field实例 Field有新的setVa...2008-03-21 18:47:53 · 88 阅读 · 0 评论 -
Lucene2.3.1发布了
主要是修改了一些2.3.0版本的Bug,特别是当autoCommit=false的情况下以及多线程添加Document,有些字段打开了term-vector有些没有打都会对索引数据造成破坏autoCommit 选项是从2.2.0版本就添加了,默认是true,我对这个参数还不是很理解,都是用的默认值true。所以没有碰到问题。2.3.1版本没有包含任何新的功能,索引文件的格式也没有变...2008-02-27 16:27:58 · 71 阅读 · 0 评论 -
Lucene2.2的新变化
发现2.1里面的新变化很多都用到了,而且帮助很大。所以决定把2.2的新内容消化一下1、在InderWriter的构造参数中增加了一个可选的boolean的参数autoCommit。默认是true,当设置成false的时候,索引的变化知道writer被close掉之后,才会提交变化。还有一个可选的删除策略的参数,应该是用来控制删除索引后是否生效。2、很多public的方法都会抛出:A...2008-01-22 20:23:06 · 78 阅读 · 0 评论 -
Lucene2.1的新变化
1.9 到 2.0 的改动不是很多,主要是废弃了一些 API , 2.0 起了一个过渡的作用。2.1 是在 2.0 基础上做了很多的改进,提升了性能,修复了一些 Bug 等。 Lucene2.1 在索引的格式上做了一些改进,所以旧版本的 Lucene 是无法访问 2.1 版的索引文件。但是 2.1 版本的可以读写旧版本的索引文件。保持向下的兼容性。这点需要我...2008-01-22 20:08:33 · 80 阅读 · 0 评论 -
Lucene 2.9 新功能盘点
Apache Lucene项目是一个完全用Java编写的高性能、全功能的文本搜索引擎库,最近它发布了2.9版。此次发布在2.4.1版的基础上进行了许多增强:单个Segment的查询及缓存,这使reopen操作的速度显著提高。这个功能对增量索引的更新很有帮助为IndexWriter增加了接近实时的搜索功能。这是Lucene从根本上开始支持实施搜索...2009-10-09 19:26:11 · 99 阅读 · 0 评论