Lucene 索引文件的生成（七）之tim&&tip

最新推荐文章于 2022-03-01 23:17:33 发布

小朋友87

最新推荐文章于 2022-03-01 23:17:33 发布

阅读量380

点赞数

分类专栏： Lucene 文章标签： Lucene 索引文件

本文链接：https://blog.csdn.net/q364367207/article/details/104061380

版权

Lucene 专栏收录该内容

159 篇文章 17 订阅

订阅专栏

本文承接索引文件的生成（六）继续介绍剩余的内容，下面先给出生成索引文件.tim、.tip的流程图。

生成索引文件.tim、.tip的流程图

图1：

统计每一个term的信息

图2：

执行到该流程，我们需要将当前term的一些信息（图1中的IntBlockTermState，见文章索引文件的生成（五））的汇总到所属域的信息中（这里先提一下的是，这些信息在后面使用FieldMetaData封装），图2中出现的字段的含义如下：

sumDocFreq：包含当前域的所有term的文档数量总和，注意的是当前域可能有多个term在同一文档中
sumTotalTermFreq：当前域的所有term在所有文档中出现的次数总和
numTerms：当前域中的term数量
minTerm：当前域中最小（字典序）的term
maxTerm：当前域中最大（字典序）的term

例如我们有如下几篇文档：

图3：

看这里：https://www.amazingkoala.com.cn/Lucene/Index/2020/0117/127.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小朋友87

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Lucene增量索引的奥秘

程序员光剑

08-07

618

随着实时搜索、实时分析等需求的增长,对索引更新的实时性要求也越来越高。如何进一步缩短新文档可被检索的延迟,同时保证系统的稳定性和查询性能,是增量索引技术未来的一大挑战。在Lucene中实现自定义分词器需要继承Tokenizer类，并实现其方法。继承Tokenizer类：创建一个新的类继承Tokenizer。实现incrementToken方法：在该方法中实现自定义的分词逻辑。注册分词器：将自定义分词器注册到Lucene的分析器中。

ES底层的Lucene文件解读

weixin_42458519的博客

03-09

1734

Lucene

参与评论您还未登录，请先登录后发表或查看评论

Lucene底层原理和优化经验分享(2)-Lucene优化经验总结

01-05

457

系统优化遵从木桶原理：一只木桶能盛多少水，并不取决于最高的木板，而取决于最短的那块木板。优化Lucene也同样，找到性能瓶颈，找对解决方法，才能事半功倍，本文将从三方面阐述我们的Lucene优化经验：　　1. 找准方向 -> Lucene性能瓶颈分析。　　2. 找对方法 -> Lucene代码架构分析。　　3. 方法落地 -> 优化经验总结。 1. Lucene性能瓶颈分析　　上

Lucene 索引文件的生成（五）之tim&&tip

q364367207的专栏

01-15

232

在前面的四篇文章中，我们介绍了生成索引文件.tim、.tip、.doc、.pos、.pay中.doc、.pos、.pay这三个索引文件的内容，接着我们继续图1中剩余的内容，即流程点生成索引文件.tim、.tip。生成索引文件.tim、.tip、.doc、.pos、.pay的流程图图1：看这里：https://www.amazingkoala.com.cn/Lucene/In...

Lucene 7.5.0 索引文件之tim&&tip

q364367207的专栏

04-01

794

.tim（TermDictionary）文件中存放了每一个term的TermStats，TermStats记录了包含该term的文档数量，term在这些文档中的词频总和；另外还存放了term的TermMetadata，TermMetadata记录了该term在.doc、.pos、.pay文件中的信息，这些信息即term在这些文件中的起始位置，即保存了指向这些文档的索引；还存放了term的Suffi...

lucene 索引文件大小分布_tim

djph26741的博客

04-05

161

Hi,I have index ~31G where27% of the index size is .fdt files (8.5G)20% - .fdx files (6.2G)37% - .frq files (11.6G)16% - .tim files (5G) This is the term dictionary for 4.0's default codec (c...

Lucene 索引文件的读取（十）之tim&&tip

q364367207的专栏

08-12

269

本文承接文章索引文件的读取（九）之tim&&tip，继续介绍剩余的流程点，先给出流程图：获取满足TermRangeQuery查询条件的term集合的流程图图1：收集Term 图2：在文章索引文件的读取（九）之tim&&tip中我们说到，在查询期间，满足查询条件的term数量未达到阈值（默认值16）跟达到阈值后的处理方式是不同的。未达到阈值当满足查询条件的term数量未达到阈值（默认值16），会将TermRangeQuery转变为Boo

Lucene 索引文件的读取（七）之tim&&tip

q364367207的专栏

08-04

569

本篇文章开始介绍索引文件tim&&tip的读取，通过TermRangeQuery的例子来介绍如何从索引文件.tim&&.tip中获取满足查询条件的所有term。为了便于介绍，使用了文章Automaton（二）中提供的例子：图1：结合图1的例子，获取满足查询条件（第79行代码）的所有term的过程可以简单的用一句话来描述：根据域名"content"，从索引文件.tim&&.tip中获取该域对应的term集合，随后遍历集合中的每一个term

Lucene倒排索引简述之索引表

Lucene/Solr解密

09-27

4239

Lucene倒排索引的核心内容，索引表，你对这部分真的熟悉了吗？那你知道FST用什么地方吗？FST又存储了什么内容呢？有什么功能呢？关于Burst-Trie，你知道Lucene是如何采用它的思想来加速Lucene搜索性能的吗？

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-04.Lucene索引深入共24页.pptx

最新发布

11-25

【Lucene索引深入】 Lucene是一个开源的全文搜索引擎库，它允许开发者构建高效、可扩展的搜索功能。在深入理解Lucene索引的过程中，我们需要掌握以下几个关键知识点： 1. **索引片段（Segments）**：索引由一系列...

Lucene随笔-Lucene的索引文件格式

u011926899的专栏

12-17

485

Lucene 6.5.1 建立一个Lucene示例数据写入 public class Writer { private static final String PATH = ""; public static void main(String[] args) throws Exception { String doc1 = "hello world"; ...

lucene tis和 tii 文件

benbendy1984的专栏

06-26

3954

在lucene 中使用 tis 保存了所有term的信息，为了加速检索，还保存了tii文件，他是tis文件的索引，下面图简单的表示了他们之间的关系上图的左边表示tis中保存的所有的term ,右边tii是保存需要索引的term以及在tis中的位置，这样通过检索tii文件，定位到我们需要查找的term的大概位置，再通关过遍历(或者二分)找到term。这样做好像比直接对

lucene原理篇

langsiming的博客

03-01

787

都知道lucene使用倒排索引来搜索文档，哪倒排索引究竟是个什么呢？倒排索引是区分于正排索引的概念正排索引：以文档的唯一id作为索引，以文档的内容作为记录的结构倒排索引：以文档中内容的单词作为的索引，以文档的id作为内容的结构相比关系数据库使用的“like %XX%”查询，倒排索引有什么优点搜索效率更高，like“%xx%”，无法使用索引，会走全表扫描，效率差可以实现更复杂的搜索场景，like“%xx%”只能实现首尾的模糊查询倒排索引的实现倒排索引由两部分组成，一个是Term Dict

Lucene 索引文件的生成（六）之tim&&tip

q364367207的专栏

01-21

570

本文承接索引文件的生成（五）继续介绍剩余的内容，下面先给出生成索引文件.tim、.tip的流程图。生成索引文件.tim、.tip的流程图图1：上一篇文章中，我们介绍了执行生成一个或多个NodeBlock的触发条件，本文就其实现过程展开介绍，同样的，下文中出现的并且没有作出解释的名词，说明已经在文章索引文件的生成（五）中介绍，不在本文中赘述。生成一个或多个NodeBlock的...

Lucene 索引文件的读取（八）之tim&&tip

q364367207的专栏

08-05

509

本文承接文章索引文件的读取（七）之tim&&tip，继续介绍剩余的流程点，先给出流程图：获取满足TermRangeQuery查询条件的term集合的流程图图1： BlockTreeTermsReader 在上一篇文章中，我们已经介绍了当前流程点BlockTreeTermsReader，并且提到在生成FieldReader期间，会采用on-heap/off-heap两种导入模式（loadMode）来获取所有域的FST的主要信息，但是没有说明Lucene是如何选择这两种导入模

Lucene源码分析 - Lucene50PostingsWriter 存储倒排索引

zoov的专栏

03-08

856

本文的代码以lucene-core 6.3.0为准，包含Lucene50PostingsWriter存储倒排索引的方式等整个类所有代码的解析。转载请注明出处。 Lucene50PostingsWriter类将倒排索引存到磁盘，先了解下这个类的基本信息：倒排表是以field为单位，也就是每个field都会写倒排表。 docOut，posOut，payOut是三个文件的文件描述符。...

【Elasticsearch实践】Elasticsearch为什么这么快

RobertLab

07-03

4470

建议先自行学习偏基础的 Elasticsearch 知识内容： Elasticsearch基础思考几个问题：为什么搜索是近实时的？为什么文档的 CRUD (创建-读取-更新-删除) 操作是实时的? 前言：ES整体架构 1、集群cluster 2、节点Node：就是个机器 3、由一个或者多个节点，多个绿色小方块组合在一起形成一个ElasticSearch的索引 4、在一个索引下，分布在多个节点里的绿色小方块称为分片：Shard 5、一个分片就是一个Lucene Index 6、在Luc

es存储文件分析

qq_16164711的博客

08-20

1569

观察es数据目录内会发现大量文件如下图所示：其中重要的有如下几个，存储三大头：文件后缀文件含义 .fdt 文档存储的字段值 .fdx 文档索引指针，需载入内存 .fnm 存储fields信息 .dvd docValues值 .dvm docValues原信息 .doc 包含每个term词频的docs列表即倒排表 .pos index中term出现的位置信息 .tim term词典，存储term信息 .tip term词典的索引，需载入内存 segm

Lucene 3.0：从文本文件创建索引详解

"本篇文章主要介绍了如何在Lucene 3.0版本中创建索引的过程，包括了从指定目录读取文本文件、设置索引目录、使用`IndexWriter`进行索引操作以及具体实现步骤。以下将详细介绍这些关键知识点。 1. 文件路径设定：...