Lucene随笔-聊聊IndexWriter

最新推荐文章于 2023-09-28 16:02:26 发布

小雨滴滴滴的童鞋

最新推荐文章于 2023-09-28 16:02:26 发布

阅读量346

点赞数

分类专栏： Eltasticsearch学习

本文链接：https://blog.csdn.net/u011926899/article/details/103137135

版权

Eltasticsearch学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Lucene版本：6.5.1
Package: org.apache.lucene.index;

IndexWriter示例

这里以"hello world"的索引过程为例，探究以下IndexWriter的原理：

doc1：索引文件。
path: 索引相关的文件所存放的文件夹位置。

IndexWriter的大致过程如下：

首先创建IndexWriter。
创建需要索引的文档。
通过IndexWriter将文档写入。
提交以及关闭IndexWriter。

		String doc1 = "hello world";
		String path = "pathFile";
		
        // 创建IndexWriter
        Directory d = FSDirectory.open(Paths.get(PATH));
        IndexWriterConfig conf = new IndexWriterConfig(new SimpleAnalyzer());
        IndexWriter indexWriter = new IndexWriter(d, conf);

        // 把要创建的索引的文本数据放入Document中
        Document ducument1 = new Document();
        ducument1.add(new TextField("id", "1", Field.Store.YES));

        // 通过IndexWriter把Document写入
        indexWriter.addDocument(ducument1);
		
		// 调用commit函数将数据组合成segment，这个时候数据才能被检索
        indexWriter.commit();
        indexWriter.close();

整个查询流程总结如下：

初始化：初始化IndexWriter必要的两个元素是Directory和IndexWriterConfig，Directory是Lucene中数据持久层的抽象接口，通过这层接口可以实现很多不同类型的数据持久层，例如本地文件系统、网络文件系统、数据库或者是分布式文件系统。这里lucene里面说明了采用NFS的模式相对于本地文件系统会导致性能下降。
构造文档：Lucene中文档由Document表示，Document由Field构成。
写入文档：通过IndexWriter的addDocument函数写入文档，写入时同时根据FieldType创建不同的索引。
提交刷新文档：当数据写入后并不是立即搜索的，需要调用commit函数，这时候会手动出发一次flush才能将数据组织成segment实现可检索。

IndexWriter创建

Class IndexWriterConfig

IndexWriterConfig里面包含了IndexWriter的配置情况，包括索引以何种形式写入、分析器的类型等等。
注意：用这个配置对象创建好IndexWriter对象后，再修改这个配置对象的配置信息不会对IndexWriter对象起作用。如要在indexWriter使用过程中修改它的配置信息，通过 indexWriter的getConfig()方法获得 LiveIndexWriterConfig 对象，在这个对象中可查看该IndexWriter使用的配置信息，可进行少量的配置修改。

其中部分的核心参数如下：

OpenMode: IndexWriter的打开方式，包含了三种模式(CREATE, APPEND, CREATE, CREATE_OR_APPEND)， CREATE表示新建或者重写一个index；APPEND表示打开一个存在的index；CREATE_APPEND表示
IndexDeletionPolicy：Lucene开放对commit point的管理，通过对commit point的管理可以实现例如snapshot等功能。Lucene默认配置的DeletionPolicy，只会保留最新的一个commit point。
Similarity：搜索的核心是相关性，Similarity是相关性算法的抽象接口，Lucene默认实现了TF-IDF和BM25算法。相关性计算在数据写入和搜索时都会发生，数据写入时的相关性计算称为Index-time boosting，计算Normalizaiton并写入索引，搜索时的相关性计算称为query-time boosting。
MergePolicy：Lucene内部数据写入会产生很多Segment，查询时会对多个Segment查询并合并结果。所以Segment的数量一定程度上会影响查询的效率，所以需要对Segment进行合并，合并的过程就称为Merge，而何时触发Merge由MergePolicy决定。
MergeScheduler：当MergePolicy触发Merge后，执行Merge会由MergeScheduler来管理。Merge通常是比较耗CPU和IO的过程，MergeScheduler提供了对Merge过程定制管理的能力。
Codec：Codec可以说是Lucene中最核心的部分，定义了Lucene内部所有类型索引的Encoder和Decoder。Lucene在Config这一层将Codec配置化，主要目的是提供对不同版本数据的处理能力。对于Lucene用户来说，这一层的定制需求通常较少，能玩Codec的通常都是顶级玩家了。
IndexerThreadPool：管理IndexWriter内部索引线程（DocumentsWriterPerThread）池，这也是Lucene内部定制资源管理的一部分。
FlushPolicy：FlushPolicy决定了In-memory buffer何时被flush，默认的实现会根据RAM大小（默认16mb）和文档个数来判断Flush的时机，FlushPolicy会在每次文档add/update/delete时调用判定。
MaxBufferedDoc：Lucene提供的默认FlushPolicy的实现FlushByRamOrCountsPolicy中允许DocumentsWriterPerThread使用的最大文档数上限，超过则触发Flush。
RAMBufferSizeMB：Lucene提供的默认FlushPolicy的实现FlushByRamOrCountsPolicy中允许DocumentsWriterPerThread使用的最大内存上限，超过则触发flush。
RAMPerThreadHardLimitMB：除了FlushPolicy能决定Flush外，Lucene还会有一个指标强制限制DocumentsWriterPerThread占用的内存大小，当超过阈值则强制flush，默认为1945MB。
Analyzer：即分词器，这个通常是定制化最多的，特别是针对不同的语言，默认的初始化函数使用的是StandardAnalyzer分析器。

Class IndexWriter

在建立IndexWriter时候，需要设定Directory 与IndexWriterConfig 。其中Directory 为索引保存的文件，而IndexWriterConfig则是indexwriter的配置情况，其中IndexWriter主要提供的核心API如下：

addDocument：比较纯粹的一个API，就是向Lucene内新增一个文档。Lucene内部没有主键索引，所有新增文档都会被认为一个新的文档，分配一个独立的docId。
updateDocuments：更新文档，但是和数据库的更新不太一样。数据库的更新是查询后更新，Lucene的更新是查询后删除再新增。流程是先delete by term，后add document。但是这个流程又和直接先调用delete后调用add效果不一样，只有update能够保证在Thread内部删除和新增保证原子性，详细流程在下一章节会细说。
deleteDocument：删除文档，支持两种类型删除，by term和by query。在IndexWriter内部这两种删除的流程不太一样，在下一章节再细说。
flush：触发强制flush，将所有DWPT的In-memory buffer flush成segment文件，这个动作可以清理内存，强制对数据做持久化。
prepareCommit/commit/rollback：commit后数据才可被搜索，commit是一个二阶段操作，prepareCommit是二阶段操作的第一个阶段，也可以通过调用commit一步完成，rollback提供了回滚到last commit的操作。
maybeMerge/forceMerge：maybeMerge触发一次MergePolicy的判定，而forceMerge则触发一次强制merge。

Document创建

要索引的数据记录、文档在lucene中的表示，是索引、搜索的基本单元。一个Document由多个字段Field构成。IndexWriter按加入的顺序为Document指定一个递增的id（从0开始），称为文档id。反向索引中存储的是这个id，文档存储中正向索引也是这个id。业务数据的主键id只是文档的一个字段。

Document主要由一组IndexableFields构成，除了提供添加和删除的接口外，在Doc内部提供了各种API用于获取Doc内部的Fields。

Class IndexableField

其为一个接口，包含了字段名，字段值，字段类型。

public interface IndexableField {
	// field名字
    String name();
    // 字段类型
    IndexableFieldType fieldType();
	// 下面的API都是获取各种字段值的接口。
    TokenStream tokenStream(Analyzer var1, TokenStream var2);
    /** @deprecated */
    @Deprecated
    float boost();
    BytesRef binaryValue();
    String stringValue();
    Reader readerValue();
    Number numericValue();
}

其中字段类型主要有以下几个内容：

stored：是否存储
tokenized：是否分词。
omitNorms：是否忽略标准化。
indexOptions：如何索引。
storeTermVectors：是否存储词项向量。
storeTermVectorOffset: 词项向量中是否存储偏移量。
storeTermVectorPositions: 词项向量中是否存储偏位置。
storeTermVectorPaykoads: 词项向量中是否存储偏附加信息。

Lucene预定义的字段字类

TextField：会自动被索引和分词的字段。一般被用在文章的正文部分。
StringField：会被索引，但是不会被分词，即会被当作一个完整的token处理，一般用在“国家”或者“ID”。
IntPoint/LongPoint/FloatPoint/DoublePoint：indexed for exact/range queries.
SortedDocValuesField
SortedSetDocValuesField
NumericDocValuesField
SortedNumericDocValuesField
SortedField: 一个默认会被存储的Field。

小雨滴滴滴的童鞋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene随笔-聊聊IndexWriter

Lucene版本：6.5.1Package: org.apache.lucene.index;IndexWriter示例这里以"hello world"的索引过程为例，探究以下IndexWriter的原理：doc1：索引文件。path: 索引相关的文件所存放的文件夹位置。IndexWriter的大致过程如下：首先创建IndexWriter。创建需要索引的文档。通过Ind...
复制链接

扫一扫

专栏目录