Lucene 索引文件的生成(七)之tim&&tip

本文承接索引文件的生成(六)继续介绍剩余的内容,下面先给出生成索引文件.tim、.tip的流程图。

生成索引文件.tim、.tip的流程图

图1:

统计每一个term的信息

图2:

  执行到该流程,我们需要将当前term的一些信息(图1中的IntBlockTermState,见文章索引文件的生成(五))的汇总到所属域的信息中(这里先提一下的是,这些信息在后面使用FieldMetaData封装),图2中出现的字段的含义如下:

  • sumDocFreq:包含当前域的所有term的文档数量总和,注意的是当前域可能有多个term在同一文档中
  • sumTotalTermFreq:当前域的所有term在所有文档中出现的次数总和
  • numTerms:当前域中的term数量
  • minTerm:当前域中最小(字典序)的term
  • maxTerm:当前域中最大(字典序)的term

  例如我们有如下几篇文档:

图3:

  

看这里:https://www.amazingkoala.com.cn/Lucene/Index/2020/0117/127.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值