ElasticSearch 搜索引擎概念简介

最新推荐文章于 2024-03-28 16:53:01 发布

码农充电站

最新推荐文章于 2024-03-28 16:53:01 发布

阅读量216

点赞数

分类专栏： ElasticSearch 笔记文章标签：搜索引擎算法 elasticsearch tf-idf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LUAOHAN/article/details/112640436

版权

ElasticSearch 笔记专栏收录该内容

20 篇文章 0 订阅

订阅专栏

公号：码农充电站pro
主页：https://codeshellme.github.io

文章目录

1，倒排索引

倒排索引是一种数据结构，经常用在搜索引擎的实现中，用于快速找到某个单词所在的文档。

倒排索引会记录一个单词词典（Term Dictionary）和一个倒排列表：

单词词典：包含了所有文档包含的所有 Term。
倒排列表：由一系列的倒排索引项组成，每个倒排索引项包含 4 项内容，分别是：
- 文档 ID
- 词频 TF：Term 在文档中出现的次数，用于相关性评分。
- 位置 Position：Term 在文档中出现的位置，用于语句搜索。
- 偏移 Offset：记录单词的开始结束位置，用于实现高亮显示。

假设我们有 3 篇文档：

文档 ID	文档内容
1	hello world
2	hello Java
3	hello elasticsearch

上面表格记录的是一种正向关系，叫做正排索引。

倒排索引记录的是一种反向关系，如下：

Term	文档 ID	词频 TF	Position	Offset
hello	1	1	0	<0, 5>
hello	2	1	0	<0, 5>
hello	3	1	0	<0, 5>
world	1	1	1	<6, 5>
Java	2	1	1	<6, 4>
elasticsearch	3	1	1	<6, 19>

ES 默认会对所有文档的所有字段建立倒排索引；也可以通过设置不对某些字段建立倒排索引，优点是节省空间，缺点是这些字段的内容无法被搜索。

2，搜索相关性

搜索相关性用于描述文档与搜索字符串的匹配程度（ES 会计算出一个评分），目的是为文档进行排序，从而将最符合用户需求的文档排在前面。

搜索相关性算法有 TF-IDF 算法和 BM25 算法。

文章《朴素贝叶斯分类-实战篇》中介绍到了 TF-IDF 算法，可作为参考。

BM25 与 TF-IDF 的比较：
在这里插入图片描述
当 TF 无限增加的时候，BM25 算分会趋向于一个数值，而不是（像 TF-IDF 一样）无限增长。

在 ES 5 之前，默认使用的是 TF-IDF 算法；在 ES 5 之后，默认使用的是 BM 25 算法。

3，一个搜索过程

下图展示了一个搜索过程：

在这里插入图片描述

当用户向搜索引擎发送一个搜索请求的时候，搜索引擎经过了以下步骤：

分词器对搜索字符串进行分词处理。
在倒排索引表中查到匹配的文档。
对每个匹配的文档进行相关性评分。
根据相关性评分对文档进行排序。
将排好序的文档返回给用户。

码农充电站

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch 搜索引擎概念简介

倒排索引是一种数据结构，经常用在搜索引擎的实现中，用于快速找到某个单词所在的文档。
复制链接

扫一扫

专栏目录

码农充电站 CSDN认证博客专家 CSDN认证企业博客

码龄12年

137: 原创

4万+: 周排名

200万+: 总排名

21万+: 访问

: 等级

2663: 积分

102: 粉丝

107: 获赞

47: 评论

849: 收藏

私信

关注

热门文章

分类专栏

最新评论

15 个有趣好玩的linux shell 命令
只睡四小时: 用什么命令安装这些命令
git revert 使用详情（转载）
hichea: 不要m7，m8，直接让dev1紧急修复bug，把c5合到master不行吗
计算机二进制中的原码，反码，补码
做而论道_CS: 在计算机系统中，正负数值，一律采用补码表示和存储。数值和补码，直接转换就可以了。原码和反码，都是无用的垃圾。原码和反码，对计算机老师，还是有用的。用它们，可以抓不及格的倒霉学生。。。
计算机二进制中的原码，反码，补码
做而论道_CS: 补码（一个正数），它就是一个数字而已。数字，可以写成各种进制，如：十、二、16 进制。进行转换时，用十进制来计算，当然是最方便的。当涉及到内存的时候，你再换算到二进制吧。比如在 “与或非左移右移等” 时，才会用到二进制。由于，数值与补码的转换，可以不用二进制。那么，原码反码符号位，就都没有任何用处了。而且，计算机根本就不用原码反码。它们也都是不存在的。那么，你从原码反码开始学习补码，走的就是歪路。计算机老师的 “谆谆教导”，实际上是在故意坑你。
计算机二进制中的原码，反码，补码
做而论道_CS: 一个字节是 8 位 2 进制数，计数周期是 2^8 = 256。－1 的补码，就是 255 = 1111 1111 (二进制)；－2 的补码，就是 254 = 1111 1110 (二进制)；。。。－128 的补码，就是 128 = 1000 0000 (二进制)。－－－－－－－－－－－－－－－－－－－所有负数的补码（或补数），都是正数。而正数，已经就是正数，当然就不需要再代替了。所以，【正数，根本就没有补码】。－－－－－－－－－－－－－－－－－－－求补码，就是这么简单。原码反码取反加一，都是没有任何用处的。计算机老师为了混碗饭吃，才没完没了的讲这些垃圾。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。