MySQL中怎么优化数据倾斜_Greenplum 调优--数据倾斜排查（一）

最新推荐文章于 2023-05-29 11:25:59 发布

weixin_39914975

最新推荐文章于 2023-05-29 11:25:59 发布

阅读量639

点赞数

文章标签： MySQL中怎么优化数据倾斜

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39914975/article/details/113943500

版权

对于分布式数据库来说，QUERY的运行效率取决于最慢的那个节点。当数据出现倾斜时，某些节点的运算量可能比其他节点大。除了带来运行慢的问题，还有其他的问题，例如导致OOM，或者DISK FULL等问题。如何监控倾斜1、监控数据库级别倾斜2、监控表级倾斜出现数据倾斜的原因和解决办法1.分布键选择不正确，导致数据存储分布不均。例如选择的字段某些值特别多，由于数据是按分布键VALUE的HASH进行分布的，...

摘要由CSDN通过智能技术生成

对于分布式数据库来说，QUERY的运行效率取决于最慢的那个节点。

当数据出现倾斜时，某些节点的运算量可能比其他节点大。除了带来运行慢的问题，还有其他的问题，例如导致OOM，或者DISK FULL等问题。

如何监控倾斜

1、监控数据库级别倾斜

2、监控表级倾斜

出现数据倾斜的原因和解决办法

1.分布键选择不正确，导致数据存储分布不均。

例如选择的字段某些值特别多，由于数据是按分布键VALUE的HASH进行分布的，导致这些值所在的SEGMENT的数据可能比而其他SEGMENT多很多。

分布键的选择详见：

2.查询导致的数据重分布，数据重分布后，数据不均。

例如group by的字段不是分布键，那么运算时就需要重分布数据。

解决办法1：

由于查询带来的数据倾斜的可能性非常大，所以Greenplum在内核层面做了优化，做法是：

先在segment本地聚合产生少量记录，将聚合结果再次重分布，重分布后再次在segment聚合，最后将结果发到master节点,

有必要的话在master节点调用聚合函数的final func(已经是很少的记录数和运算量)。

例子：

tblaocol表是c1的分布键，但是我们group by使用了c398字段，因此看看它是怎么做的呢？请看执行计划的解释。

对于非分布键的分组聚合请求，Greenplum采用了多阶段聚合如下：

第一阶段，在SEGMENT本地聚合。(需要扫描所有数据，这里不同存储&

最低0.47元/天解锁文章

weixin_39914975

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MySQL中怎么优化数据倾斜_Greenplum 调优--数据倾斜排查（一）

对于分布式数据库来说，QUERY的运行效率取决于最慢的那个节点。当数据出现倾斜时，某些节点的运算量可能比其他节点大。除了带来运行慢的问题，还有其他的问题，例如导致OOM，或者DISK FULL等问题。如何监控倾斜1、监控数据库级别倾斜2、监控表级倾斜出现数据倾斜的原因和解决办法1.分布键选择不正确，导致数据存储分布不均。例如选择的字段某些值特别多，由于数据是按分布键VALUE的HASH进行分布的，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。