Lucene初探之索引过程分析(二)

15 篇文章 0 订阅

Lucene初探之索引过程分析(二)

在上一个章节我们讲到Lucene的索引过程的起点是建立一个IndexWriter对象。

在IndexWriter对象创建之后,我们将会创建Document文档对象,并且将其加入域(Field)。

Document doc = new Document();
doc.add(new Field("path", f.getPath(), Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("modified", DateTools.timeToString(f.lastModified(), DateTools.Resolution.MINUTE), Field.Store.YES, Field.Index.NOT_NALYZED));
doc.add(new Field("contents", new FieldReader(f)));

Docment对象主要包括:

  • 此文档的boost, 默认为1,>1说明比普通文档要重要,类似,<1说明该文档不太重要。
  • 一个ArrayList保存此文档所有的域。
  • 每一个域包含域名、域值,和一些标志位,和fnm,fdx,fdt中的描述相对应。

Docment文件创建完成之后,将其加入到之前创建的IndexWriter对象中,

writer.addDocument(xxx);

然后IndexWriter再调用对应的DocumentsWriter.addDocument,再然后调用DocumentsWriter.updateDocument。

其中,DocumentsWriter包含以下几点:

  • 用于写索引的文件
  • 删除文档
  • 缓存管理
  • 多线程并发索引
  • 一些标志位

其中,将文档加入DocumentWriter还可以细分为:

  • 得到当前线程对应的文档集处理对象;
  • 用得到的文档集处理对象处理文档;
  • 用DocumentsWriter.finishDocument结束本次文档添加

以上的叙述中,对于DocumentsWriter的缓存管理还有一些不够细致,这方面感兴趣的可以自己研究一下,包括上面将文档加入DocumentsWriter中,第二个步骤的使用文档集处理对象文档时涉及到多线程的问题,可以自行去扒一下代码,看一下实现原理和运行机制。

完成这些工作之后,我们就会关闭IndexWriter对象,在关闭Index对象的问题上,我们将会在下一篇文章中详细描述。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值