ES：倒排索引与全文搜索

最新推荐文章于 2024-06-28 15:27:57 发布

shiki0072

最新推荐文章于 2024-06-28 15:27:57 发布

阅读量3.5k

点赞数

分类专栏：学习笔记文章标签： ES 全文搜索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shiki0072/article/details/80135221

版权

学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

倒排索引(Inverted index)：通常的索引是通过文档找关键词，即通过文档id找到文档，再从中找关键词。而倒排索引则是通过关键词找到其所在的文档。即：

传统索引：文档 ---> 单词

倒排索引：单词 ---> 文档

单词存在内存的“词典”中，相当于索引（传统意义上的索引，不是ES中的index）文件，获得单词后，通过字典树之类的方式确定存储该单词的倒排索引存储位置，其中存储了单词信息和指向倒排文件的指针，倒排文件中存储倒排列表，倒排列表中存储的是出现过该单词的所有文档，以及该单词在文档中出现的位置。这样就可以通过单词来获取文档了。

全文搜索

传统的数据库搜索如mysql，是结构化搜索，也就是文档（表中的一条数据）是结构化的（由很多指定的字段组成）

而全文搜索的文档内容不是结构化的，如一篇文章，一个句子这样，没有根据指定字段进行划分。而搜索引擎（使用全文搜索）通常处理的就是这类文档。

全文搜索处理的过程为（以ES为例）：

对于存储文档：

先进行字符过滤，将一些无效字符（如HTML的标签）给过滤掉或转成合适的字符（如&转成and）

然后一个文档（可以是一个句子或文章）分词

例如：明天就放假了分词为：明天就放假了

接着通过token（就是指单词）过滤器对单词进行过滤如：“了”没有意义根据算法可能会被token过滤器过滤掉。

然后根据分词创建倒排索引

以下过程为个人猜测，具体实现没有看，仅仅用于帮助理解：

例如：对于单词“明天” 先判断词典中是否有“明天“这个单词，如果有，则根据该单词的倒排索引找到倒排文件，将“明天就放假了”文档的指针（或者是id）添加到倒排文件中。如果词典中没有，就在词典中创建一个“明天“的倒排索引，并新建一个倒排文件存储出现“明天"的文档指针或id，然后将该倒排文件的指针添加到倒排索引中。

这样当搜索明天时，就会根据明天在词典中找到对应的倒排索引，从而获取文件，从中读出出现过明天的文档，“明天就放假了“就会被搜索出来，如果还有其他包含单词“明天”的文档也会被一起搜索出来。

对于搜索而言：

例如此时ES中有几个文档：

1“明天就放假了”

2“明天不加班”

3“明天睡懒觉”

4“明天出去吃饭”

5“今晚不加班”

当搜索“明天“时，

与之前存储的过程类似，可以找到“明天“的倒排文件，从而获得前4个文档，然后根据评分算法

决定哪些文档可以显示，以什么顺序进行显示。

如以词频/逆文本（根据搜索词出现的频率以及不出现的频率评分）进行评分，显示超过0.2分（举个例子）的文档。1，4为1/3，2，3为2/5。那么4个文档都超过0.2分，都可以显示，

显示的结果就是2,3在前 1,4在后。

而当搜索“明天放假“时，分词结果为 “明天”“放假” 根据两个词进行检索，对于文档1，两个词都能检索到，即评分为 1/3+1/3=2/3,而对于2，“明天“命中得2/5分，“放假”不命中，扣分x（具体扣多少根据算法定）。最后文档1分大于文档2，结果显示文档1在文档2之前，对于文档2，若减分很多，低于了0.2就不显示了。

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
ES：倒排索引与全文搜索

倒排索引(Inverted index)：通常的索引是通过文档找关键词，即通过文档id找到文档，再从中找关键词。而倒排索引则是通过关键词找到其所在的文档。即：传统索引：文档 ---&gt; 单词倒排索引：单词 ---&gt; 文档单词存在内存的“词典”中，相当于索引（传统意义上的索引，不是ES中的index）文件，获得单词后，通过字典树之类的方式确定存储该单词的倒排索引存储位置，其中存储了单词信息...
复制链接

扫一扫

专栏目录

shiki0072 CSDN认证博客专家 CSDN认证企业博客

码龄9年

3: 原创

67万+: 周排名

65万+: 总排名

8198: 访问

: 等级

119: 积分

0: 粉丝

2: 获赞

1: 评论

6: 收藏

私信

关注

分类专栏

学习笔记 3篇

最新评论

ES全文搜索优势
Elissa Liu: 简单明了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。