greenplum 分布键选择

最新推荐文章于 2023-09-05 17:28:49 发布

渊丹

最新推荐文章于 2023-09-05 17:28:49 发布

阅读量3.7k

点赞数 1

分类专栏： greenplum 文章标签： greenplum分布键

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a290450134/article/details/103559095

版权

greenplum 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

greenplum是基于postgre的数据库，最大的特征就是分布式，多节点（segment）。保存的数据会根据分布键存储到不同的节点上，用于查询或者关联。如果分布键选择得当，数据散列均匀，各个节点的数据量就会保持平衡，量级基本一致。如果选择不当就是导致数据倾斜，某一个节点数据量特别大。直接影响就是木桶效应，其他节点不工作，一个节点处理所有的数据，再提交给master，效率低下。理想状态下关联表分布键相同，在同一节点进行关联提交MASTER。

Greenplum分布键方式：

Hash分布：选择一个或多个列作为分布键，计算 hash 值，并通过 hash 值路由到特定的Segment节点上。如果不指定分布键，默认将第一个字段作为分布键。

随机分布：数据随机分散在每一个节点中，可以保证数据平均分布，但是在执行 SQL 的过程中，关联等操作都需要将数据重分布，性能较差。

分布键的创建：

DISTRIBUTED BY（字段1，字段2）指定字段作为分布键
变更分布键（ALTER TABLE 表明 set distributed by(字段1,字段2)），执行后会重新分布节点上的数据。
建表时不指定DISTRIBUTED BY 第一个字段就是分布键。

分布键的选择：

经常需要 JOIN 的列

当关联键和分布键均一致时，可以在 Segment 中完成 JOIN，不需要重分布或者广播表（左连接不能将左表广播，右连接不能将右表广播，全连接时，两表不允许广播）。

当关联键和分布键不一致时，则需要重分布不一致的表或者广播表，带来额外的开销。

例：左分布键关联右非分布键

无分布键进行关联：

选择分布键关联代价会减少。

分布均匀的列或者多列

选择的分布列值单一，则可能导致数据倾斜，更有可能全部倾斜到一个节点上。master会等待所有的segment提交数据后返回结果，小的节点立即提交，但是大的节点会浪费很多时间。所以一次SQL执行的时间无形中被延长了。

若表中没有分布太均匀的字段就多个字段进行组合分布。

查询数据倾斜状态: select gp_segment_id,count(*) from ods_events GROUP BY gp_segment_id;

高并发查询的条件列

如果数据经常被高并发的键值或离散查询，可以将查询条件的列作为分布列，这样不需要连接到所有的 Segment 去查，可以大大提高并发能力。

不要轻易使用随机分布

随机分布，单表使用还好，如果多表管理，就是上图（无分布键进行关联）的效果了。多节点重分布。。。效率低下

不会被修改的字段

程序中也应注意，分布键不能出现在update语句中，半自动修改数据的时候要避开分布键，不要出现在被修改的字段中。

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
greenplum 分布键选择

greenplum是基于postgre的数据库，最大的特征就是分布式，多节点（segment）。保存的数据会根据分布键存储到不同的节点上，用于查询或者关联。如果分布键选择得当，数据散列均匀，各个节点的数据量就会保持平衡，量级基本一致。如果选择不当就是导致数据倾斜，某一个节点数据量特别大。直接影响就是木桶效应，其他节点不工作，一个节点处理所有的数据，再提交给master，效率低下。理想状态下关...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。