【ElasticSearch】：时间序列数据库的秘密

最新推荐文章于 2024-08-19 08:36:18 发布

hxcaifly

最新推荐文章于 2024-08-19 08:36:18 发布

阅读量1.1k

点赞数 1

分类专栏： ElasticSearch

本文链接：https://blog.csdn.net/hxcaifly/article/details/88693812

版权

本文介绍了ElasticSearch如何利用Lucene的倒排索引技术实现快速检索，通过深入解析term dictionary、term index、posting list等概念，解释了其比关系型数据库检索更快的原因。此外，文章还探讨了ElasticSearch如何通过skip list和bitset进行联合索引查询，以及如何通过嵌套文档减少文档数以优化存储效率。

摘要由CSDN通过智能技术生成

1. 如何快速检索？

Elasticsearch 是通过 Lucene 的倒排索引技术实现比关系型数据库更快的过滤。特别是它对多条件的过滤支持非常好，比如年龄在 18 和 30 之间，性别为女性这样的组合查询。倒排索引很多地方都有介绍，但是其比关系型数据库的 b-tree 索引快在哪里？到底为什么快呢？

笼统的来说，b-tree 索引是为写入优化的索引结构。当我们不需要支持快速的更新的时候，可以用预先排序等方式换取更小的存储空间，更快的检索速度等好处，其代价就是更新慢。要进一步深入的化，还是要看一下 Lucene 的倒排索引是怎么构成的。

在这里插入图片描述

这里有好几个概念。我们来看一个实际的例子，假设有如下的数据：

docid	年龄	性别
1	18	女
2	20	女
3	18	男

这里每一行是一个 document。每个 document 都有一个 docid。那么给这些 document 建立的倒排索引就是：年龄，性别。

可以看到，倒排索引是 per field 的，一个字段由一个自己的倒排索引。18,20 这些叫做 term，而 [1,3] 就是 posting list。Posting list 就是一个 int 的数组，存储了所有符合某个 term 的文档 id。

那么什么是 term dictionary 和 term index？

假设我们有很多个 term，比如：Carla,Sara,Elin,Ada,Patty,Kate,Selena。

如果按照这样的顺序排列，找出某个特定的 term 一定很慢，因为 term 没有排序，需要全部过滤一遍才能找出特定的 term。排序之后就变成了：Ada,Carla,Elin,Kate,Patty,Sara,Selena。

这样我们可以用二分查找的方式，比全遍历更快地找出目标的 term。这个就是 term dictionary。有了 term dictionary 之后，可以用 logN 次磁盘查找得到目标。但是磁盘的随机读操作仍然是非常昂贵的（一次 random access 大概需要 10ms 的时间）。所以尽量少的读磁盘，有必要把一些数据缓存到内存里。但是整个 term dictionary 本身又太大了，无法完整地放到内存里。于是就有了 term index。term index 有点像一本字典的大的章节表。比如：

A 开头的 term ……………. Xxx 页

C 开头的 term ……………. Xxx 页

E 开头的 term ……………. Xxx 页

如果所有的 term 都是英文字符的话，可能这个 term index 就真的是 26 个英文字符表构成的了。但是实际的情况是，term 未必都是英文字符，term 可以是任意的 byte 数组。而且 26 个英文字符也未必是每一个字符都有均等的 term，比如 x 字符开头的 term 可能一个都没有，而 s 开头的 term 又特别多。实际的 term index 是一棵 trie 树：

在这里插入图片描述
例子是一个包含 “A”, “to”, “tea”, “ted”, “ten”, “i”, “in”, 和 “inn” 的 trie 树。这棵树不会包含所有的 ter