ES搜索框架--基本原理

最新推荐文章于 2024-01-19 11:49:04 发布

脑袋凉凉

最新推荐文章于 2024-01-19 11:49:04 发布

阅读量128

点赞数

文章标签： elasticsearch 搜索引擎大数据全文检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51641196/article/details/130037734

版权

一、基本原理

参考博客(非常详细)：https://blog.csdn.net/weixin_43111776/article/details/124952148

我们先来看看MySQL中的索引，在MySQL关系表中，每一行数据都有一个主键，我们在查询数据的时候会先找到数据的主键，再根据主键去找到整行数据，这种索引形式成为正排索引，本质是通过key来查询value。而ES使用的倒排索引正好与之相反，是通过对value进行分词，然后根据关键词通过value去查询key。

在搜索引擎中，每个文档都有一个对应的文档 ID，文档内容被表示为一系列关键词的集合。例如，文档 1 经过分词，提取了 20 个关键词，每个关键词都会记录它在文档中出现的次数和出现位置。那么，倒排索引就是关键词到文档 ID 的映射，每个关键词都对应着一系列的文件，这些文件中都出现了关键词。

这样就可以得到ES的评分过程：

查询：搜索内容分词--对词语查找它在哪些文档中出现过--计算某个文档中这个词语的评分--某个文档中出现的所有分词评分之和即为此文档的评分--根据评分输出结果列表

过滤：对词语查找所有对应的文档即为符合的文档--进行其他的查询评分操作

二、评分机制

官网介绍：https://www.elastic.co/guide/en/elasticsearch/reference/7.16/query-filter-context.html

1.查询

参考博客：https://www.cnblogs.com/wangchuanfu/p/7452809.html

使用TF/IDF算法，基本意思就是词频算法。

原理：根据分词词库，所有的文档在建立索引的时候进行分词划分。进行搜索的时候，也对搜索的短语进行分词划分。其中TF代表分词项在文档中出现的次数(term frequency)，IDF代表分词项在多少个文档中出现(inverse document frequency)。

过程：将搜索的短语进行分词得出分词项，每个分词项和每个索引中的文档根据TF/IDF进行词频出现的评分计算。然后每个分词项的得分相加，就是这个搜索对应的文档得分。

2.过滤

filter过滤字段内容(答案是简单的是或否——不计算分数)，存在则会出现在结果列表中，不存在则抛弃。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ES搜索框架--基本原理

一、基本原理参考博客(非常详细)：https://blog.csdn.net/weixin_43111776/article/details/124952148我们先来看看MySQL中的索引，在MySQL关系表中，每一行数据都有一个主键，我们在查询数据的时候会先找到数据的主键，再根据主键去找到整行数据，这种索引形式成为正排索引，本质是通过key来查询value。而ES使用的倒排索引正好与之相反，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。