Bucket join 用户指南

Bucket join是优化大型SQL查询的一种方法,尤其适用于避免shuffle和数据倾斜。选择高基数的键进行桶划分,并配合Sort By columns以提升效率。本文详细介绍了何时创建bucket table,如何选择桶字段和Sort By columns,以及一对一和一对多bucket join的实现。
摘要由CSDN通过智能技术生成

Bucket join 用户指南

什么时候我们需要一个bucket table?

如果表满足以下条件,则考虑将其构建为桶表:

  1. table很大,例如,table size 超过500GB
  2. 对于小表来说,只有当它用来与一个巨大的桶表连接时,才会出现这种情况。
  3. Sort Merge Join慢的原因是因为shuffle,而不是数据倾斜

如何选择桶字段?

如果你真的需要构建一个bucket table,在大多数情况下,你不需要。

选择正确的keys ,with high cardinality

  • 可以均匀分布且不会导致数据倾斜的列。

    好的选项:guid,user_id。不好的选项:page_id,agent_id。

如何选择Sort By columns?

Bucket columns 和 日期 类似的列 , 可以帮助跳过 filter 中的数据。或者干脆让Sort By column空着。

我们为什么需要bucket join?

我们知道,在Spark中的查询执行中,最重的操作符是shuffle。通过shuffle,我们可以确保不同任务得到相同的值,这是聚合和join执行的前提。对于某些表,连接模式或聚合模式是固定的。Spark并没有在每次执行中都进行洗牌,而是提供了一种实现洗牌结果的方法,即bucke

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值