Lucene2.1的新变化

iteye_15098

于 2007-03-22 22:47:34 发布

阅读量71

点赞数

分类专栏： Lucene 文章标签： lucene SVN Apache

Lucene 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1.9 到 2.0 的改动不是很多，主要是废弃了一些 API ， 2.0 起了一个过渡的作用。

2.1 是在 2.0 基础上做了很多的改进，提升了性能，修复了一些 Bug 等。

Lucene2.1 在索引的格式上做了一些改进，所以旧版本的 Lucene 是无法访问 2.1 版的索引文件。但是 2.1 版本的可以读写旧版本的索引文件。保持向下的兼容性。这点需要我们在使用时注意。

下面简单的列出一些新的特性：

1.'s' 和 't' 从默认的 stopwords 中移掉了。但是依然还有 'a' 也可以会有同样的问题，所以分词需要针对自己的应用进行自定义。

2.更新了 StandardAnalyzer 中的针对 CJK 的 Unicode 代码范围。用处不大，因为我们中文需要自己开发分词。

3.允许在 QueryParser 的最前面使用通配符 (*, ?) ，之前是不允许的。这个比较有意义，可以实现一些模糊搜索。

4.QueryParser 默认使用 ConstantScoreRangeQuery 执行范围查询。增加了 useOldRangeQuery 属性允许在需要的情况下使用旧的 RangeQuery

5.对于WildcardQuery ，如果一个 term 不包含任何的 ? 或者 * ，之前会抛出异常，现在会执行一个 TermQuery 。

6.去掉了deprecated 的 doc.fields() 方法和 Enumeration

7.write lock 现在默认的位置是索引的目录，简单命名为 write.lock

8.新的 FieldSelector API ，相关的 IndexReader 和实现都发生了变化。新的 Fieldable 接口被用作字段的延迟加载上。

9.使用 MultiFieldQueryParser 的时候可以为不同的 field 指定不同的 boosts

10.新的方法 IndexWriter.addIndexesNoOptimize() 在新添加一个新的 segments 的时候，只进行合并，不进行优化。

11.QueryParser 允许在引号和短语中使用反斜线

12.增加了方法 RAMDirectory.sizeInBytes(), IndexWriter.ramSizeInBytes() 和 IndexWriter.flushRamSegments() ，允许应用程序控制索引时缓存文档对内存的使用，这些蛮有用的，可以用于监控索引的过程。

13.QueryParser 解析 *:* 为匹配所有的内容

14.可以通过命令行在已经存在的索引文件中修改和删除 field

15.IndexWriter 增加了方法来高效得更新 documents 。增加 IndexWriter.flush() 方法将内存的内容刷新到文件系统。

小兵 2007-3-22

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene2.1的新变化

1.9 到 2.0 的改动不是很多，主要是废弃了一些 API ， 2.0 起了一个过渡的作用。 2.1 是在 2.0 基础上做了很多的改进，提升了性能，修复了一些 Bug 等。 Lucene2.1 在索引的格式上做了一些改进，所以旧版本的 Lucene 是无法访问 2.1 版的索引文件。但是 2.1 版本的可以读写旧版本的索引文件。保持向下的兼容性。这点需要我们在使用时注意。下面简单的列出一些新...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。