在ES数十亿数据量级的场景下，如何优化查询性能？

最新推荐文章于 2024-08-15 03:03:59 发布

热衷技术的Java程序员

最新推荐文章于 2024-08-15 03:03:59 发布

阅读量1.2k

点赞数

分类专栏：后端文章标签： java 索引数据库 es

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bjmsb/article/details/106025698

版权

本文探讨了在ES处理数十亿数据时如何优化查询性能。关键策略包括理解客户端读取数据流程，利用数据预热提升filesystem cache效率，实施冷热分离策略，优化模型设计以避免复杂查询，以及明智地处理分页查询。通过限制深度分页和使用scroll API，可以显著提高查询响应速度。

摘要由CSDN通过智能技术生成

ES 客户端读取数据的流程

客户端 -> shard -> filesystem cache -> 磁盘文件

海量数据检索查询性能优化思路

如果内存足够大， filesystem cache 会缓存，如果查询走filesystem cache 则速度耗时在毫秒级别，如果查询请求走磁盘文件，则最少查询耗时都在秒级别。

如果整个磁盘上索引数据文件在3台机器上，一共占用了1T的磁盘容量，ES数据量是1T，每台机器的数据量是300G。ES性能最佳情况，你的机器内存至少可以容纳总数据量的一半。

生产环境试验，最好用ES存储少量的数据，用来搜索的那些索引，内存留给filesystem cache ， 100G。数据量控制在100G以内，相当于查询的数据几乎全部走内存来搜索，性能非常高，几乎搜索结果在1秒以内就可以出结果。

另外还有注意的一点，就是在ES中真正存储的记录字段都应该是你需要查询的字段，不应该把整条记录中的所有字段都放在ES中，如果全部字段都放到ES中，则会导致你机器的filesystem chche 占据空间很大，很多记录其实查询都要走硬盘文件，这样会导致查询性能会很低。

数据预热

后台系统自动搜索一下热数据，提前让数据加

最低0.47元/天解锁文章

热衷技术的Java程序员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。