Elasticsearch倒排索引

最新推荐文章于 2024-09-29 19:18:45 发布

宇小吖

最新推荐文章于 2024-09-29 19:18:45 发布

阅读量229

点赞数

CC 4.0 BY-SA版权

分类专栏： es 文章标签： elasticsearch lucene 搜索引擎

本文链接：https://blog.csdn.net/NameWFY/article/details/120996385

es 专栏收录该内容

1 篇文章

订阅专栏

扫码关注公众号，每天推送不同的技术文章，公众号私聊获取学习资料，期待你我之间一起进步！

关于倒排索引

场景是：给定几个关键词，找出包含关键词的文档

倒排索引：不是由记录来确定属性值，而是由属性值来确定记录的位置

lucene是基于倒排索引实现的。
倒排文件(inverted file)：存储倒排索引的物理文件

倒排索引组成：单词词典和倒排文件。

倒排索引一般表示为一个关键词，然后是它的频度（出现的次数），位置（出现在哪一篇文章或网页中，及有关的日期，作者等信息），它相当于为互联网上几千亿页网页做了一个索引，好比一本书的目录、标签一般。读者想看哪一个主题相关的章节，直接根据目录即可找到相关的页面。不必再从书的第一页到最后一页，一页一页的查找。

倒排文件

所有单词的倒排列表顺序的存储在磁盘的某个文件里，这个文件即被称为倒排文件，倒排文件是存储倒排索引的物理文件。

单词词典

1单词词典是由文档集合中出现过的所有单词构成的字符串集合，单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
2是倒排索引中非常重要的组成部分，它是用来维护文档集合中所有单词的相关信息，同时用来记载某个单词对应的倒排列表在倒排文件中的位置信息。在支持搜索时，根据用户的查询词，去单词词典里查询，就能够获得相应的倒排列表。
对于一个规模很大的文档集合来说，可能包含了几十万甚至上百万的不同单词，
3 快速定位某个单词直接决定搜索的响应速度，所以我们需要很高效的数据结构对单词词典进行构建和查找。常用的数据结构包含哈希加链表和树形词典结构。

案例

Lucene倒排索引原理

Lucerne使用的是倒排文件索引结构。该结构及相应的生成算法如下：　　

设有两篇文章1和2：

文章1的内容为：Tom lives in Guangzhou,I live in Guangzhou too. 　　

文章2的内容为：He once lived in Shanghai.

<1>取得关键词

由于lucene是基于关键词索引和查询的，首先我们要取得这两篇文章的关键词，通常我们需要如下处理措施：　　
a.我们现在有的是文章内容，即一个字符串，我们先要找出字符串中的所有单词，即分词。英文单词由于用空格分隔，比较好处理。中文单词间是连在一起的需要特殊的分词处理。　　
b.文章中的”in”, “once” “too”等词没有什么实际意义，中文中的“的”“是”等字通常也无具体含义，这些不代表概念的词可以过滤掉　　
c.用户通常希望查“He”时能把含“he”，“HE”的文章也找出来，所以所有单词需要统一大小写。　　
d.用户通常希望查“live”时能把含“lives”，“lived”的文章也找出来，所以需要把“lives”，“lived”还原成“live” 　　
e.文章中的标点符号通常不表示某种概念，也可以过滤掉

在lucene中以上措施由Analyzer类完成。经过上面处理后，

文章1的所有关键词为：[tom] [live] [guangzhou] [i] [live] [guangzhou] 　　

文章2的所有关键词为：[he] [live] [shanghai]

<2>建立倒排索引

有了关键词后，我们就可以建立倒排索引了。对应关系是： “关键词”对“拥有该关键词的所有文章号”。

文章1，2经过倒排后变成