Lucene原理解析

DK_ing

于 2022-08-19 09:44:28 发布

阅读量717

点赞数 1

分类专栏： # Elasticsearch 文章标签： lucene 全文检索 solr

本文链接：https://blog.csdn.net/DK_ing/article/details/126418417

版权

3 篇文章 0 订阅

订阅专栏

Lucene简介

适用于需要数据索引量不大的场景，档索引量过大，需要ES或Solr

索引的生成分为两个部分：

Lucene的基础层次结构由索引、段、文档、域、词五个部分组成。正向索引的生成即为基于Lucene的基础层次结构一级一级处理文档并分解成域存储次的过程。
在这里插入图片描述

Lucene全文索引的核心是基于倒排索引实现的快速索引机制。
倒排索引原理如下图。基于分词器将文本内容进行分词后，记录每个词出现在哪篇文章中，从而通过用户输入的索引词查询出包含该词的文章。
在这里插入图片描述

可以看到，随着文档数量增多，篇幅较长时，索引词可能会占用大量的存储空间，加载到内存后内存损耗过大。
从Lucene4开始，Lucene采用了FST来减少索引词带来的空间消耗。

有限状态转换器。主要特点如下：

性能：
FST压缩率一般在3倍~20倍之间，相对于TreeMap/HashMap的膨胀3倍，内存节省就有9倍到60倍！

包含.tip、.tim和.doc这三个文件，其中：

tip： 用于保存倒排索引Term的前缀，来快速定位.tim文件中属于这个Field的Term的位置，即上图中的aab、abd、bdc。
tim： 保存了不同前缀对应的相应的Term及相应的倒排表信息，倒排表通过跳表实现快速查找，通过跳表能够跳过一些元素的方式对多条件查询交集、并集、差集之类的集合运算也提高了性能。
doc： 包含了文档号及词频信息，根据倒排表中的内容返回该文件中保存的文本信息。

Lucene利用倒排索引定位需要查询的文档ID，通过文档ID搜索出文件后，再利用词权重等信息对文档排序而后返回。

文件名	扩展名	描述
Segments File	segments.gen,segments_N	segment文件，存储commit点的信息
Lock File	write.lock	写锁文件，防止多个IndexWriter写入同一个文件
Segment Info	.si	segment信息文件，存储segment的元数据，指明段包含哪些文件
Compound File	.cfs,.cfe	如果启用Compound功能，会压缩索引到2个文件内
Fields	.fnm	域文件，存储field信息
Field Index	.fdt	域指针文件，包含到域文件的指针
Term Dictionary	.tim	Term词典，存储项信息
Term Index	.tip	Term索引，存储到Term词典的索引
Frequencies	.doc	频率，包含每个Term以及频率信息
Positions	.pos	位置，存储一个Term在索引中的位置信息
Payloads	.pay	载荷，存储额外的预先设置好的元信息如字符偏移或者用户载荷
Norms	.nvd,.nvm	调整因子，.nvm保存加权因子元数据；.nvd存储加权数据
Per-Document Values	.dvd,.dvm	.dvm存文档正排元数据；.dvd存文档正排数据
Term Vector Index	.tvx	文档向量索引，存储在文档数据文件的偏移量，指向.tvd的offset
Term Vector Documents	.tvd	包含每个文档的term vector信息
Term Vector Fields	.tvf	包含域级别的项向量信息
Deleted Documents	.del	关于文档被删除的信息

关注