本文承接索引文件的生成(六)继续介绍剩余的内容,下面先给出生成索引文件.tim、.tip的流程图。
生成索引文件.tim、.tip的流程图
图1:
统计每一个term的信息
图2:
执行到该流程,我们需要将当前term的一些信息(图1中的IntBlockTermState,见文章索引文件的生成(五))的汇总到所属域的信息中(这里先提一下的是,这些信息在后面使用FieldMetaData封装),图2中出现的字段的含义如下:
- sumDocFreq:包含当前域的所有term的文档数量总和,注意的是当前域可能有多个term在同一文档中
- sumTotalTermFreq:当前域的所有term在所有文档中出现的次数总和
- numTerms:当前域中的term数量
- minTerm:当前域中最小(字典序)的term
- maxTerm:当前域中最大(字典序)的term
例如我们有如下几篇文档:
图3:
看这里:https://www.amazingkoala.com.cn/Lucene/Index/2020/0117/127.html