Lucene倒排索引

最新推荐文章于 2024-07-08 06:53:03 发布

黑人月

最新推荐文章于 2024-07-08 06:53:03 发布

阅读量1k

点赞数 1

分类专栏： # java 文章标签： lucene 搜索引擎 elasticsearch java 后端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a523900582/article/details/121990071

版权

java 专栏收录该内容

31 篇文章 1 订阅

订阅专栏

关于搜索：

传统关系型数据库和 ES 的差别
ES搜索引擎原理

传统关系型数据库搜索

先设想一个关于搜索的场景，假设我们要搜索一首诗句内容中带“前”字的古诗。
在这里插入图片描述
用传统关系型数据库和 ES 实现会有什么差别？如果用像 MySQL 这样的 RDBMS 来存储古诗的话，我们应该会去使用这样的 SQL 去查询：

select name from poems where content like "%前%";

这种我们称为顺序扫描法，需要遍历所有的记录进行匹配。不但效率低，而且不符合我们搜索时的期望。

比如我们在搜索“ABCD"这样的关键词时，通常还希望看到"A"，“AB”，“CD”，“ABC”的搜索结果。于是就有了专业的搜索引擎，比如 ES。

ES搜索引擎原理

在这里插入图片描述
搜索引擎的搜索原理简单概括的话可以分为这么几步：

内容爬取，停顿词过滤，比如一些无用的像"的"，“了”之类的语气词/连接词
内容分词，提取关键词
根据关键词建立倒排索引
用户输入关键词进行搜索

这里我们就引出了一个概念，也是我们今天的要剖析的重点倒排索引。也是 ES 的核心知识点。

如果你了解 ES 应该知道，ES 可以说是对 Lucene 的一个封装，里面关于倒排索引的实现就是通过 lucene 这个 jar 包提供的
API 实现的，所以下面讲的关于倒排索引的内容实际上都是 lucene 里面的内容。

倒排索引
首先我们还不能忘了我们之前提的搜索需求，先看下建立倒排索引之后，我们上述的查询需求会变成什么样子。

这样我们一输入“前”，借助倒排索引就可以直接定位到符合查询条件的古诗。

当然这只是一个很大白话的形式来描述倒排索引的简要工作原理。在 ES 中，这个倒排索引是具体是个什么样的，怎么存储的等等，这些才是倒排索引的精华内容。
①几个概念
在进入下文之前，先描述几个前置概念。
term：关键词这个东西是我自己的讲法，在 ES 中，关键词被称为 term。
postings list：还是用上面的例子，{静夜思，望庐山瀑布}是 “前” 这个 term 所对应列表。在 ES 中，这些被描述为所有包含特定 term 文档的 id 的集合。

由于整型数字 integer 可以被高效压缩的特质，integer 是最适合放在 postings list 作为文档的唯一标识的，ES 会对这些存入的文档进行处理，转化成一个唯一的整型 id。

再说下这个 id 的范围，在存储数据的时候，在每一个 shard 里面，ES 会将数据存入不同的 segment，这是一个比 shard 更小的分片单位，这些 segment 会定期合并。

在每一个 segment 里面都会保存最多 2^31 个文档，每个文档被分配一个唯一的 id，从 0 到 (2^31)-1。

在这里插入图片描述
②索引内部结构

上面所描述的倒排索引，仅仅是一个很粗糙的模型。真的要在实际生产中使用，当然还差的很远。

在实际生产场景中，比如 ES 最常用的日志分析，日志内容进行分词之后，可以得到多少的 term？

那么如何快速的在海量 term 中查询到对应的 term 呢？遍历一遍显然是不现实的。

term dictionary：
于是乎就有了 term dictionary，ES 为了能快速查找到 term，将所有的 term 排了一个序，二分法查找。

是不是感觉有点眼熟，这不就是 MySQL 的索引方式的，直接用 B+树建立索引词典指向被索引的数据。

term index：
但是问题又来了，你觉得 Term Dictionary 应该放在哪里？肯定是放在内存里面吧？磁盘 io 那么慢。就像 MySQL 索引就是存在内存里面了。

但是如果把整个 term dictionary 放在内存里面会有什么后果呢？内存爆了…

别忘了，ES 默认可是会对全部 text 字段进行索引，必然会消耗巨大的内存，为此 ES 针对索引进行了深度的优化。

在保证执行效率的同时，尽量缩减内存空间的占用。于是乎就有了 term index。

Term index：
从数据结构上分类算是一个“Trie 树”，也就是我们常说的字典树。

这是一种专门处理字符串匹配的数据结构，用来解决在一组字符串集合中快速查找某个字符串的问题。

这棵树不会包含所有的 term，它包含的是 term 的一些前缀（这也是字典树的使用场景，公共前缀）。

通过 term index 可以快速地定位到 term dictionary 的某个 offset，然后从这个位置再往后顺序查找。就想右边这个图所表示的。

怎么样，像不像我们查英文字典，我们定位 S 开头的第一个单词，或者定位到 Sh 开头的第一个单词，然后再往后顺序查询？

lucene 在这里还做了两点优化
一是 term dictionary 在磁盘上面是分 block 保存的，一个 block 内部利用公共前缀压缩，比如都是 Ab 开头的单词就可以把 Ab 省去。

二是 term index 在内存中是以 FST（finite state transducers）的数据结构保存的。
在这里插入图片描述

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

黑人月 CSDN认证博客专家 CSDN认证企业博客

码龄4年

42: 原创

41万+: 周排名

133万+: 总排名

8万+: 访问

: 等级

584: 积分

13: 粉丝

144: 获赞

11: 评论

252: 收藏

私信

关注

热门文章

分类专栏

java 31篇
leetcode 8篇
毕业 3篇

最新评论

数据库事务一致性的理解
l_zzzh: 对数据库一致性的描述，还是维基百科更加准确。事务的一致性就是保证数据满足表的各个约束。而提到的转账方面，应该是业务的一致性。通过上述两者共同的作用，实现了整体的一致性和可靠性
一文看懂Springboot的@Autowired和@Resource区别
代码飞走咯: 很通俗易懂
一文看懂Springboot的@Autowired和@Resource区别
qq_41149447: 可我这边现在是autowired用着ok，之前Resource用着ok，现在不ok了，得改成autowired，我怀疑是不是我电脑除了jdk-21以外又装了jdk8的原因。。。但我java_home明明还是jdk-21啊。。。闹不懂了。。
一文看懂Springboot的@Autowired和@Resource区别
大田斗小木子: 看懂了感谢
数据库事务一致性的理解
biajiajuang: 兄弟，不得不说就你举的这几个例子很好的解释了数据的一致性，其它作者都在拿转账举例子，A账号减100，B账号加100的。一直觉得这个例子根本是业务上的一致性，而不是数据库要保证的数据一致性。看了你说的这几个例子我终于让我对数据库一致性有了很明确的理解。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。