Lucene随笔-聊聊IndexWriter

Lucene版本:6.5.1
Package: org.apache.lucene.index;

IndexWriter示例

这里以"hello world"的索引过程为例,探究以下IndexWriter的原理:

  • doc1:索引文件。
  • path: 索引相关的文件所存放的文件夹位置。

IndexWriter的大致过程如下:

  1. 首先创建IndexWriter。
  2. 创建需要索引的文档。
  3. 通过IndexWriter将文档写入。
  4. 提交以及关闭IndexWriter。
		String doc1 = "hello world";
		String path = "pathFile";
		
        // 创建IndexWriter
        Directory d = FSDirectory.open(Paths.get(PATH));
        IndexWriterConfig conf = new IndexWriterConfig(new SimpleAnalyzer());
        IndexWriter indexWriter = new IndexWriter(d, conf);

        // 把要创建的索引的文本数据放入Document中
        Document ducument1 = new Document();
        ducument1.add(new TextField("id", "1", Field.Store.YES));

        // 通过IndexWriter把Document写入
        indexWriter.addDocument(ducument1);
		
		// 调用commit函数将数据组合成segment,这个时候数据才能被检索
        indexWriter.commit();
        indexWriter.close();

整个查询流程总结如下:

  • 初始化:初始化IndexWriter必要的两个元素是Directory和IndexWriterConfig,Directory是Lucene中数据持久层的抽象接口,通过这层接口可以实现很多不同类型的数据持久层,例如本地文件系统、网络文件系统、数据库或者是分布式文件系统。这里lucene里面说明了采用NFS的模式相对于本地文件系统会导致性能下降。
  • 构造文档:Lucene中文档由Document表示,Document由Field构成。
  • 写入文档:通过IndexWriter的addDocument函数写入文档,写入时同时根据FieldType创建不同的索引。
  • 提交刷新文档:当数据写入后并不是立即搜索的,需要调用commit函数,这时候会手动出发一次flush才能将数据组织成segment实现可检索。

IndexWriter创建

Class IndexWriterConfig

IndexWriterConfig里面包含了IndexWriter的配置情况,包括索引以何种形式写入、分析器的类型等等。
注意:用这个配置对象创建好IndexWriter对象后,再修改这个配置对象的配置信息不会对IndexWriter对象起作用。如要在indexWriter使用过程中修改它的配置信息,通过 indexWriter的getConfig()方法获得 LiveIndexWriterConfig 对象,在这个对象中可查看该IndexWriter使用的配置信息,可进行少量的配置修改

其中部分的核心参数如下:

  • OpenMode: IndexWriter的打开方式,包含了三种模式(CREATE, APPEND, CREATE, CREATE_OR_APPEND), CREATE表示新建或者重写一个index;APPEND表示打开一个存在的index;CREATE_APPEND表示
  • IndexDeletionPolicy:Lucene开放对commit point的管理,通过对commit point的管理可以实现例如snapshot等功能。Lucene默认配置的DeletionPolicy,只会保留最新的一个commit point。
  • Similarity:搜索的核心是相关性,Similarity是相关性算法的抽象接口,Lucene默认实现了TF-IDF和BM25算法。相关性计算在数据写入和搜索时都会发生,数据写入时的相关性计算称为Index-time boosting,计算Normalizaiton并写入索引,搜索时的相关性计算称为query-time boosting。
  • MergePolicy:Lucene内部数据写入会产生很多Segment,查询时会对多个Segment查询并合并结果。所以Segment的数量一定程度上会影响查询的效率,所以需要对Segment进行合并,合并的过程就称为Merge,而何时触发Merge由MergePolicy决定。
  • MergeScheduler:当MergePolicy触发Merge后,执行Merge会由MergeScheduler来管理。Merge通常是比较耗CPU和IO的过程,MergeScheduler提供了对Merge过程定制管理的能力。
  • Codec:Codec可以说是Lucene中最核心的部分,定义了Lucene内部所有类型索引的Encoder和Decoder。Lucene在Config这一层将Codec配置化,主要目的是提供对不同版本数据的处理能力。对于Lucene用户来说,这一层的定制需求通常较少,能玩Codec的通常都是顶级玩家了。
  • IndexerThreadPool:管理IndexWriter内部索引线程(DocumentsWriterPerThread)池,这也是Lucene内部定制资源管理的一部分。
  • FlushPolicy:FlushPolicy决定了In-memory buffer何时被flush,默认的实现会根据RAM大小(默认16mb)和文档个数来判断Flush的时机,FlushPolicy会在每次文档add/update/delete时调用判定。
  • MaxBufferedDoc:Lucene提供的默认FlushPolicy的实现FlushByRamOrCountsPolicy中允许DocumentsWriterPerThread使用的最大文档数上限,超过则触发Flush。
  • RAMBufferSizeMB:Lucene提供的默认FlushPolicy的实现FlushByRamOrCountsPolicy中允许DocumentsWriterPerThread使用的最大内存上限,超过则触发flush。
  • RAMPerThreadHardLimitMB:除了FlushPolicy能决定Flush外,Lucene还会有一个指标强制限制DocumentsWriterPerThread占用的内存大小,当超过阈值则强制flush, 默认为1945MB。
  • Analyzer:即分词器,这个通常是定制化最多的,特别是针对不同的语言,默认的初始化函数使用的是StandardAnalyzer分析器。

Class IndexWriter

在建立IndexWriter时候,需要设定Directory 与IndexWriterConfig 。其中Directory 为索引保存的文件,而IndexWriterConfig则是indexwriter的配置情况,其中IndexWriter主要提供的核心API如下:

  • addDocument:比较纯粹的一个API,就是向Lucene内新增一个文档。Lucene内部没有主键索引,所有新增文档都会被认为一个新的文档,分配一个独立的docId。
  • updateDocuments:更新文档,但是和数据库的更新不太一样。数据库的更新是查询后更新,Lucene的更新是查询后删除再新增。流程是先delete by term,后add document。但是这个流程又和直接先调用delete后调用add效果不一样,只有update能够保证在Thread内部删除和新增保证原子性,详细流程在下一章节会细说。
  • deleteDocument:删除文档,支持两种类型删除,by term和by query。在IndexWriter内部这两种删除的流程不太一样,在下一章节再细说。
  • flush:触发强制flush,将所有DWPT的In-memory buffer flush成segment文件,这个动作可以清理内存,强制对数据做持久化。
  • prepareCommit/commit/rollback:commit后数据才可被搜索,commit是一个二阶段操作,prepareCommit是二阶段操作的第一个阶段,也可以通过调用commit一步完成,rollback提供了回滚到last commit的操作。
    maybeMerge/forceMerge:maybeMerge触发一次MergePolicy的判定,而forceMerge则触发一次强制merge。

Document创建

要索引的数据记录、文档在lucene中的表示,是索引、搜索的基本单元。一个Document由多个字段Field构成。IndexWriter按加入的顺序为Document指定一个递增的id(从0开始),称为文档id。反向索引中存储的是这个id,文档存储中正向索引也是这个id。 业务数据的主键id只是文档的一个字段。

Document主要由一组IndexableFields构成,除了提供添加和删除的接口外,在Doc内部提供了各种API用于获取Doc内部的Fields。

Class IndexableField

其为一个接口,包含了字段名,字段值,字段类型。

public interface IndexableField {
	// field名字
    String name();
    // 字段类型
    IndexableFieldType fieldType();
	// 下面的API都是获取各种字段值的接口。
    TokenStream tokenStream(Analyzer var1, TokenStream var2);
    /** @deprecated */
    @Deprecated
    float boost();
    BytesRef binaryValue();
    String stringValue();
    Reader readerValue();
    Number numericValue();
}

其中字段类型主要有以下几个内容:

  • stored:是否存储
  • tokenized:是否分词。
  • omitNorms:是否忽略标准化。
  • indexOptions:如何索引。
  • storeTermVectors:是否存储词项向量。
  • storeTermVectorOffset: 词项向量中是否存储偏移量。
  • storeTermVectorPositions: 词项向量中是否存储偏位置。
  • storeTermVectorPaykoads: 词项向量中是否存储偏附加信息。

Lucene预定义的字段字类

  • TextField:会自动被索引和分词的字段。一般被用在文章的正文部分。
  • StringField:会被索引,但是不会被分词,即会被当作一个完整的token处理,一般用在“国家”或者“ID”。
  • IntPoint/LongPoint/FloatPoint/DoublePoint:indexed for exact/range queries.
  • SortedDocValuesField
  • SortedSetDocValuesField
  • NumericDocValuesField
  • SortedNumericDocValuesField
  • SortedField: 一个默认会被存储的Field。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值