Lucene初探之索引过程分析（二）

最新推荐文章于 2017-06-23 21:14:33 发布

Derrick_gu

最新推荐文章于 2017-06-23 21:14:33 发布

阅读量417

点赞数

分类专栏： Lucene java 文章标签： lucene path 索引对象文档

本文链接：https://blog.csdn.net/u010677293/article/details/69364198

版权

Lucene 同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

java

15 篇文章 0 订阅

订阅专栏

Lucene初探之索引过程分析（二）

在上一个章节我们讲到Lucene的索引过程的起点是建立一个IndexWriter对象。

在IndexWriter对象创建之后，我们将会创建Document文档对象，并且将其加入域（Field）。

Document doc = new Document();
doc.add(new Field("path", f.getPath(), Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("modified", DateTools.timeToString(f.lastModified(), DateTools.Resolution.MINUTE), Field.Store.YES, Field.Index.NOT_NALYZED));
doc.add(new Field("contents", new FieldReader(f)));

Docment对象主要包括：

此文档的boost, 默认为1，>1说明比普通文档要重要，类似，<1说明该文档不太重要。
一个ArrayList保存此文档所有的域。
每一个域包含域名、域值，和一些标志位，和fnm，fdx，fdt中的描述相对应。

Docment文件创建完成之后，将其加入到之前创建的IndexWriter对象中，

writer.addDocument(xxx);

然后IndexWriter再调用对应的DocumentsWriter.addDocument，再然后调用DocumentsWriter.updateDocument。

其中，DocumentsWriter包含以下几点：

用于写索引的文件
删除文档
缓存管理
多线程并发索引
一些标志位

其中，将文档加入DocumentWriter还可以细分为：

得到当前线程对应的文档集处理对象；
用得到的文档集处理对象处理文档；
用DocumentsWriter.finishDocument结束本次文档添加

以上的叙述中，对于DocumentsWriter的缓存管理还有一些不够细致，这方面感兴趣的可以自己研究一下，包括上面将文档加入DocumentsWriter中，第二个步骤的使用文档集处理对象文档时涉及到多线程的问题，可以自行去扒一下代码，看一下实现原理和运行机制。

完成这些工作之后，我们就会关闭IndexWriter对象，在关闭Index对象的问题上，我们将会在下一篇文章中详细描述。

Derrick_gu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene初探之索引过程分析（二）

Lucene初探之索引过程分析（二）在上一个章节我们讲到Lucene的索引过程的起点是建立一个IndexWriter对象。在IndexWriter对象创建之后，我们将会创建Document文档对象，并且将其加入域（Field）。Document doc = new Document();doc.add(new Field("path", f.getPath(), Field.Store.YES,
复制链接

扫一扫

专栏目录