Lucene创建索引源码分析

最新推荐文章于 2024-08-12 22:34:15 发布

孤落

最新推荐文章于 2024-08-12 22:34:15 发布

阅读量583

点赞数 3

分类专栏：全文检索文章标签：大数据 elasticsearch lucene

本文链接：https://blog.csdn.net/lu__peng/article/details/108614943

版权

本文深入分析了Lucene如何创建倒排索引。从创建对象、处理文档和字段，到创建倒排索引的各个阶段，详细阐述了Lucene在内存中的处理流程，包括使用缓冲池存储term信息，以及在处理文档字段时的逻辑。文章还提出了关于内存结构的遗留问题。

摘要由CSDN通过智能技术生成

当用户往Lucene中添加一个文档时，Lucene会基于该文档创建倒排索引，具体是以文档中的字段Field为单位进行逐个处理的。

大致流程就是对文档中的内容以Field为单位，进行分词处理，并基于处理后的分词(term)建立倒排索引。lucene中不管对文档，还是对字段进行处理，实际上都是在DefaultIndexingChain中处理的。

1 创建`DefaultIndexingChain`对象

DefaultIndexingChain对象在整个索引创建阶段仅存在一个。在创建DefaultIndexingChain对象的时候，比较重要的就是持有一个TermsHash对象

public DefaultIndexingChain(DocumentsWriterPerThread docWriter) throws IOException {
   
    ...
    TermsHash termVectorsWriter = new TermVectorsConsumer(docWriter);
    //创建一个TermsHash对象
    this.termsHash = new FreqProxTermsWriter(docWriter, termVectorsWriter);
}

TermsHash对象中包含三大内存缓冲池，分别是：

intPool缓冲池：存储执行bytePool/termBytePool的指针
bytePool缓冲池：和termBytePool指向同一块内存空间
termBytePool缓冲池：存储的是term的[长度，字节值，所在文档ID，词频，偏移量]等信息

TermsHash(DocumentsWriterPerThread docWriter, boolean trackAllocations, TermsHash nextTermsHash) {
   
    this.intPool = new IntBlockPool(docWriter.intBlockAllocator);
    this.bytePool = new ByteBlockPool(docWriter.byteBlockAllocator);
    if (nextTermsHash != null) {
   
        this.termBytePool = this.bytePool;
        nextTermsHash.termBytePool = this.bytePool;
    }
}

2 处理文档`processDocument`

用户往Lucene中添加一个文档后，Lucene会执行DefaultIndexingChain中的processDocument逻辑，具体代码如下：

public void processDocument() throws IOException, AbortingException {
   
    ...
    while(true) {
   
        //遍历文档中包含的所有字段，以字段为单位，调用processField进行处理
        IndexableField field = (IndexableField)i$.next();
        fieldCount = this.processField(field, fieldGen, fieldCount);
    }
    ...
}

2 处理文档字段`processField`

在处理每一个字段Field时，Lucene会首先创建一个PerField对象，这个对象的类型是TermsHashPerField,可以看processField方法。

private int processField(IndexableField field, long fieldGen, int fieldCount) throws IOException, AbortingException {
   
    //地段名称
    String fieldName = field.name();
    //字段类型，eg：Stored
    IndexableFieldType fieldType = field.fieldType();
    //声明一个PerField对象
    DefaultIndexingChain.PerField fp = null;
	
    //这里比较重要，在这个方法中创建一个PerField对象
    fp = this.getOrAddField(fieldName, fieldType, true);

    //对字段的值进行分词处理，并建立倒排索引
    fp.invert(field, first);
}

processField方法中比较重要的逻辑就是创建PerField对象和分词建立倒排索引，下面分别来看。

2.1 创建`PerField`对象

创建PerField对象，是在getOrAddField方法中实现的。getOrAddField方法代码如下。

private DefaultIndexingChain.PerField getOrAddField(String name, IndexableFieldType fieldType, boolean invert) {
   
    
    //方法中比较重要的逻辑就是new一个PerField对象。
    fp = new DefaultIndexingChain.PerField(fi, invert);
    
    //将PerField对象存放在fieldHash数组中
    this.fieldHash[hashPos] = fp;
	
    //返回给上层调用者一个PerField对象
    return fp;
}

在new PerField时，会在PerField的构造方法中执行一些额外的逻辑，其中重要的就是将fieldInfo对象中的信息添加到termsHash中，并为每一个Field创建一个TermsHashPerField对象，该对象由PerField持有，并最终存在DefaultIndexingChain的成员变量fieldHash数组中。PerField中的关键代码如下：

public PerField(FieldInfo fieldInfo, boolean invert) {
   
        this.setInvertState();
}

void setInvertSta

最低0.47元/天解锁文章

孤落

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Lucene创建索引源码分析

1 创建DefaultIndexingChain对象

2 处理文档processDocument

2 处理文档字段processField

2.1 创建PerField对象

1 创建`DefaultIndexingChain`对象

2 处理文档`processDocument`

2 处理文档字段`processField`

2.1 创建`PerField`对象