ElasticSearch 什么是倒排索引

最新推荐文章于 2024-10-04 23:41:39 发布

天才小熊猫12138584

最新推荐文章于 2024-10-04 23:41:39 发布

阅读量938

点赞数

分类专栏： ElasticSearch 文章标签： ElasticSearch Centos

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40990836/article/details/93377097

版权

ElasticSearch 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

倒排索引

ElasticSearch 使用一种称为倒排所以的结构，他适用于快速的全文搜索，一个倒排索引由文档中所有不重复词的列表构成，对于其中没歌词，都有一个包含他的文档列表

实例

（1）：假设文档集合包含五个文档，每个文档内容如图所示，在图中最左端一栏是每个文档对应的文档编号，我们的任务就是对这个文档集合建立倒排索引。
在这里插入图片描述

（2）：中文和英文等语言不同，单词之间没有明确分割符号，所以首先要用分词系统将文档自动切分成单词序列，这样每个文档就切换成为有单词序列构成的数据流，为了系统后续处理方便，需要对每个不同的单词赋予唯一的单词编号，同事记录下哪些文档包含这个单词，在如此处理结果后，我们可以得到最简单的倒排索引，单词ID一栏记录了每个单词的单词编号，第二栏是对应的单词，第三栏即每个单词对应的倒排列表

在这里插入图片描述

举例

在这里插入图片描述

会出现的问题

Quick 和 quick 以独立的词条出现，然而用户可能认为他们是相同的词

fox 和 foxes 非常相似，就像 dog 和 dogs ；他们有相同的词根

jumped 和 leap 尽管没有相同的词根，但是他们的意思很相近。他们是同义词

搜索含有 Quick fox 的文档是搜索不到的

使用标准化规则（normalization）

建立倒排索引的时候，会对拆分出的各个单词进行相应的处理，以提升后面搜索的时候能够搜索到县关联的文档的概率
使用标准化规则后建立的倒排索引

这个时候搜索 fox 和 foxes， foxes 转换 fox 。

天才小熊猫12138584

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。