Elasticsearch查询速度为什么这么快？看啥？问你呢

Ndk开发校长

于 2024-03-14 14:35:59 发布

阅读量853

点赞数 11

分类专栏： Java程序员面试文章标签： elasticsearch 大数据搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61041374/article/details/136710012

版权

Java程序员面试专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章比较了MySQLInnoDB引擎中常用的索引类型（如散列表、有序数组、平衡二叉树和跳表）以及它们的优缺点，着重讨论了B+树在MySQL中的应用。同时，文章还介绍了Elasticsearch的正排索引，并给出了使用索引的一些建议，特别是对于Java工程师在数据库设计中的考虑。

摘要由CSDN通过智能技术生成

说的不是很透彻，没有解析相关的原理;不过既然反复提到了索引，那我们就从索引的角度来对比下两者的差异。

MySQL 索引

============================================================================

先从 MySQL 说起，索引这个词想必大家也是烂熟于心，通常存在于一些查询的场景，是典型的空间换时间的案例。以下内容以 InnoDB 引擎为例。

常见的数据结构

===========================================================================

假设由我们自己来设计 MySQL 的索引，大概会有哪些选择呢?

①散列表

========================================================================

首先我们应当想到的是散列表，这是一个非常常见且高效的查询、写入的数据结构，对应到 Java 中就是 HashMap。

Elasticsearch查询速度为什么这么快？

这个数据结构应该不需要过多介绍了，它的写入效率很高 O(1)，比如我们要查询 id=3 的数据时，需要将 3 进行哈希运算，然后再这个数组中找到对应的位置即可。

但如果我们想查询 1≤id≤6 这样的区间数据时，散列表就不能很好的满足了，由于它是无序的，所以得将所有数据遍历一遍才能知道哪些数据属于这个区间。

②有序数组

=========================================================================

Elasticsearch查询速度为什么这么快？

有序数组的查询效率也很高，当我们要查询 id=4 的数据时，只需要通过二分查找也能高效定位到数据 O(logn)。

同时由于数据也是有序的，所以自然也能支持区间查询;这么看来有序数组适合用做索引咯?

自然是不行，它有另一个重大问题;假设我们插入了 id=2.5 的数据，就得同时将后续的所有数据都移动一位，这个写入效率就会变得非常低。

③平衡二叉树

==========================================================================

既然有序数组的写入效率不高，那我们就来看看写入效率高的，很容易就能想到二叉树。

这里我们以平衡二叉树为例：

Elasticsearch查询速度为什么这么快？

由于平衡二叉树的特性：左节点小于父节点、右节点大于父节点。

所以假设我们要查询 id=11 的数据，只需要查询 10→12→11 便能最终找到数据，时间复杂度为 O(logn)，同理写入数据时也为 O(logn)。

但依然不能很好的支持区间范围查找，假设我们要查询 5≤id≤20 的数据时，需要先查询 10 节点的左子树再查询 10 节点的右子树最终才能查询到所有数据。导致这样的查询效率并不高。

④跳表

=======================================================================

跳表可能不像上边提到的散列表、有序数组、二叉树那样日常见的比较多，但其实 Redis 中的 sort set 就采用了跳表实现。这里我们简单介绍下跳表实现的数据结构有何优势。

我们都知道即便是对一个有序链表进行查询效率也不高，由于它不能使用数组下标进行二分查找，所以时间复杂度是 o(n)。

但我们也可以巧妙的优化链表来变相的实现二分查找，如下图：

Elasticsearch查询速度为什么这么快？

我们可以为最底层的数据提取出一级索引、二级索引，根据数据量的不同，我们可以提取出 N 级索引。当我们查询时便可以利用这里的索引变相的实现了二分查找。

假设现在要查询 id=13 的数据，只需要遍历 1→7→10→13 四个节点便可以查询到数据，当数越多时，效率提升会更明显。

同时区间查询也是支持，和刚才的查询单个节点类似，只需要查询到起始节点，然后依次往后遍历(链表有序)到目标节点便能将整个范围的数据查询出来。

同时由于我们在索引上不会存储真正的数据，只是存放一个指针，相对于最底层存放数据的链表来说占用的空间便可以忽略不计了。

平衡二叉树的优化

============================================================================

但其实 MySQL 中的 InnoDB 并没有采用跳表，而是使用的一个叫做 B+ 树的数据结构。

这个数据结构不像是二叉树那样大学老师当做基础数据结构经常讲到，由于这类数据结构都是在实际工程中根据需求场景在基础数据结构中演化而来。

比如这里的 B+ 树就可以认为是由平衡二叉树演化而来。刚才我们提到二叉树的区间查询效率不高，针对这一点便可进行优化：

Elasticsearch查询速度为什么这么快？

在原有二叉树的基础上优化后：所有的非叶子都不存放数据，只是作为叶子节点的索引，数据全部都存放在叶子节点。

这样所有叶子节点的数据都是有序存放的，便能很好的支持区间查询。只需要先通过查询到起始节点的位置，然后在叶子节点中依次往后遍历即可。

当数据量巨大时，很明显索引文件是不能存放于内存中，虽然速度很快但消耗的资源也不小;所以 MySQL 会将索引文件直接存放于磁盘中。

这点和后文提到 Elasticsearch 的索引略有不同。由于索引存放于磁盘中，所以我们要尽可能的减少与磁盘的 IO(磁盘 IO 的效率与内存不在一个数量级)。

通过上图可以看出，我们要查询一条数据至少得进行 4 次IO，很明显这个 IO 次数是与树的高度密切相关的，树的高度越低 IO 次数就会越少，同时性能也会越好。

那怎样才能降低树的高度呢?

Elasticsearch查询速度为什么这么快？

我们可以尝试把二叉树变为三叉树，这样树的高度就会下降很多，这样查询数据时的 IO 次数自然也会降低，同时查询效率也会提高许多。这其实就是 B+ 树的由来。

使用索引的一些建议

=============================================================================

其实通过上图对 B+树的理解，也能优化日常工作的一些小细节;比如为什么需要最好是有序递增的?

假设我们写入的主键数据是无序的，那么有可能后写入数据的 id 小于之前写入的，这样在维护 B+树索引时便有可能需要移动已经写好数据。

如果是按照递增写入数据时则不会有这个考虑，每次只需要依次写入即可。所以我们才会要求数据库主键尽量是趋势递增的，不考虑分表的情况时最合理的就是自增主键。

整体来看思路和跳表类似，只是针对使用场景做了相关的调整(比如数据全部存储于叶子节点)。

ES 索引

=========================================================================

MySQL 聊完了，现在来看看 Elasticsearch 是如何来使用索引的。

正排索引

========================================================================

小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Java工程师，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Java开发全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注Java）

Java高频面试专题合集解析：

阿里Java岗面试百题：Spring 缓存 JVM 微服务数据库 RabbitMQ等

当然在这还有更多整理总结的Java进阶学习笔记和面试题未展示，其中囊括了Dubbo、Redis、Netty、zookeeper、Spring cloud、分布式、高并发等架构资料和完整的Java架构学习进阶导图！

阿里Java岗面试百题：Spring 缓存 JVM 微服务数据库 RabbitMQ等

更多Java架构进阶资料展示

阿里Java岗面试百题：Spring 缓存 JVM 微服务数据库 RabbitMQ等

阿里Java岗面试百题：Spring 缓存 JVM 微服务数据库 RabbitMQ等

阿里Java岗面试百题：Spring 缓存 JVM 微服务数据库 RabbitMQ等

Netty、zookeeper、Spring cloud、分布式、高并发等架构资料和完整的Java架构学习进阶导图！**

[外链图片转存中…(img-3T9KSZ6w-1710398147888)]

更多Java架构进阶资料展示

[外链图片转存中…(img-FTVmLqPY-1710398147888)]

[外链图片转存中…(img-eNfrG7Xy-1710398147889)]

[外链图片转存中…(img-sOsz5yju-1710398147889)]

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

Ndk开发校长

关注

11
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Elasticsearch查询速度为什么这么快？看啥？问你呢

但依然不能很好的支持区间范围查找，假设我们要查询 5≤id≤20 的数据时，需要先查询 10 节点的左子树再查询 10 节点的右子树最终才能查询到所有数据。导致这样的查询效率并不高。这个数据结构应该不需要过多介绍了，它的写入效率很高 O(1)，比如我们要查询 id=3 的数据时，需要将 3 进行哈希运算，然后再这个数组中找到对应的位置即可。通过上图可以看出，我们要查询一条数据至少得进行 4 次IO，很明显这个 IO 次数是与树的高度密切相关的，树的高度越低 IO 次数就会越少，同时性能也会越好。
复制链接

扫一扫

专栏目录

博客等级

码龄3年

547
原创

7812
点赞

7752
收藏

5465
粉丝

关注

私信

热门文章

分类专栏

最新评论

Python 自然语言处理入门
普通网友: 每当我阅读你的编程博客文章时，我总能感受到你的专业水平和耐心解答的精神。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
python高级编程之列表推导式_python列表推导大括号
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Python 自然语言处理入门
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。