elasticsearch中倒排索引详解

最新推荐文章于 2024-07-08 11:01:33 发布

私念

最新推荐文章于 2024-07-08 11:01:33 发布

阅读量289

点赞数

分类专栏： elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tiancityycf/article/details/112794065

版权

elasticsearch 专栏收录该内容

43 篇文章 3 订阅

订阅专栏

参考：https://www.phpmianshi.com/?id=164

概念

Elasticsearch使用一种叫做倒排索引(inverted index)的结构来做快速的全文搜索。倒排索引由在文档中出现的唯一的单词列表，以及对于每个单词在文档中的位置组成。

示例

我们有两个文档，每个文档 content 字段包含：

1. The quick brown fox jumped over the lazy dog

2. Quick brown foxes leap over lazy dogs in summer

为了创建倒排索引，我们首先切分每个文档的 content 字段为单独的单词（我们把它们叫做词(terms)或者表征(tokens)），把所有的唯一词放入列表并排序，结果是这个样子的：

现在，如果我们想搜索 "quick brown" ，我们只需要找到每个词在哪个文档中出现既可：

两个文档都匹配，但是第一个比第二个有更多的匹配项。如果我们加入简单的相似度算法(similarity algorithm)，计算匹配单词的数目，这样我们就可以说第一个文档比第二个匹配度更高——对于我们的查询具有更多相关性。

但是在我们的倒排索引中还有些问题：

1. "Quick" 和 "quick" 被认为是不同的单词，但是用户可能认为它们是相同的。

2. "fox" 和 "foxes" 很相似，就像 "dog" 和 "dogs" ——它们都是同根词。

3. "jumped" 和 "leap" 不是同根词，但意思相似——它们是同义词

上面的索引中，搜索 "+Quick +fox" 不会匹配任何文档（记住，前缀 + 表示单词必须匹配到）。只有 "Quick" 和 "fox" 都在同一文档中才可以匹配查询，但是第一个文档包含 "quick fox" 且第二个文档包含 "Quick foxes" 。

用户可以合理的希望两个文档都能匹配查询，我们也可以做的更好。

如果我们将词为统一为标准格式，这样就可以找到不是确切匹配查询，但是足以相似从而可以关联的文档。例如：

1. "Quick" 可以转为小写成为 "quick" 。

2. "foxes" 可以被转为根形式 ""fox 。同理 "dogs" 可以被转为 "dog" 。

3. "jumped" 和 "leap" 同义就可以只索引为单个词 "jump

现在的索引：

但我们还未成功。我们的搜索 "+Quick +fox" 依旧失败，因为 "Quick" 的确切值已经不在索引里，不过，如果我们使用相同的标准化规则处理查询字符串的 content 字段，查询将变成 "+quick +fox" ，这样就可以匹配到两个文档。

这个表征化和标准化的过程叫做分词(analysis)，关于分词更多参考：https://www.phpmianshi.com/?id=163

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

私念 CSDN认证博客专家 CSDN认证企业博客

码龄16年

324: 原创

3万+: 周排名

2万+: 总排名

45万+: 访问

: 等级

5286: 积分

325: 粉丝

288: 获赞

54: 评论

890: 收藏

私信

关注

热门文章

分类专栏

PHP 99篇
Linux 66篇
network 4篇
架构 43篇
nginx 15篇
GoLang 45篇
面试必考 21篇
Redis 3篇
elasticsearch 43篇
elastic 3篇
Mysql 36篇
Docker 6篇
设计模式 36篇
java学习笔记 9篇
java常用技巧 4篇

最新评论

go面向对象-接口
CSDN-Ada助手: 不知道 Go 技能树是否可以帮到你：https://edu.csdn.net/skill/go?utm_source=AI_act_go
nginx中http转https的几种方式
心外无物~: 方法一和二遇到服务端接口调用就不行了，http 调不通
理解PHP中的Generator
gh372029002: php8中内存实例代码结果： 0.00063085556030273 ms 320 bytes 0.0021350383758545 ms 说明了用yield会拿时间换空间
elasticsearch中如何分析慢查询
熟悉开机关机重启: 全局的用PUT /_settings ，我这儿8.9.0版本的生效
go延迟调用defer
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/616814782。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。