Bucket join 用户指南

最新推荐文章于 2023-05-11 20:39:32 发布

腹黑客

最新推荐文章于 2023-05-11 20:39:32 发布

阅读量872

点赞数

分类专栏： spark 文章标签： sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29342297/article/details/119828762

版权

Bucket join是优化大型SQL查询的一种方法，尤其适用于避免shuffle和数据倾斜。选择高基数的键进行桶划分，并配合Sort By columns以提升效率。本文详细介绍了何时创建bucket table，如何选择桶字段和Sort By columns，以及一对一和一对多bucket join的实现。

摘要由CSDN通过智能技术生成

Bucket join 用户指南

什么时候我们需要一个bucket table？

如果表满足以下条件，则考虑将其构建为桶表：

table很大，例如，table size 超过500GB
对于小表来说，只有当它用来与一个巨大的桶表连接时，才会出现这种情况。
Sort Merge Join慢的原因是因为shuffle，而不是数据倾斜

如何选择桶字段？

如果你真的需要构建一个bucket table，在大多数情况下，你不需要。

选择正确的keys ，with high cardinality

可以均匀分布且不会导致数据倾斜的列。

好的选项：guid，user_id。不好的选项：page_id，agent_id。

如何选择Sort By columns?

Bucket columns 和日期类似的列 , 可以帮助跳过 filter 中的数据。或者干脆让Sort By column空着。

我们为什么需要bucket join?

我们知道，在Spark中的查询执行中，最重的操作符是shuffle。通过shuffle，我们可以确保不同任务得到相同的值，这是聚合和join执行的前提。对于某些表，连接模式或聚合模式是固定的。Spark并没有在每次执行中都进行洗牌，而是提供了一种实现洗牌结果的方法，即bucke

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

腹黑客 CSDN认证博客专家 CSDN认证企业博客

码龄9年

112: 原创

31万+: 周排名

219万+: 总排名

9万+: 访问

: 等级

1562: 积分

39: 粉丝

40: 获赞

25: 评论

182: 收藏

私信

关注

分类专栏

spark 8篇
scala 7篇
kafka 4篇
操作系统 12篇
flink 21篇

最新评论

Linux命令快速复习
张小鱼༒: 博主，你的这个lsdt命令咋使用的？这个在Linux里面咋使用？
kafka快速入门
SiegfriedG: 如果某一个分区有三个副本因子，就算其中一个挂掉，那么只会剩下的两个钟，两个钟什么意思啊
Flink 快速入门案例(参考官方文档)
Lzzzii: 你好，为什么我直接运行控制台没反应呢
python3用mysqlclient连接mysql数据库操作问题
IT包工头hyh: 你安装的mysqlclint，为啥用的是mysqldb呢
Flink - Table API 之 window (窗口)
KledLi: 好家伙直接把官方文档粘过来

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。