Spark bucketing bucket分桶原理和应用

只要开始永远不晚

已于 2023-08-07 13:06:06 修改

阅读量2k

点赞数 1

分类专栏：数据开发 PySpark简明教程文章标签： spark 分桶 bucketing bucket

于 2022-08-24 13:09:04 首次发布

本文链接：https://blog.csdn.net/haohaizijhz/article/details/126500900

版权

PySpark简明教程同时被 2 个专栏收录

24 篇文章 27 订阅 ¥9.90 ¥99.00

订阅专栏

数据开发

3 篇文章 0 订阅

订阅专栏

介绍Spark分桶的原理以及如何在数据分析和数据准备中更好的应用分桶。

分桶概念

spark的bucketing分桶是一种组织存储系统中数据的方式。以便后续查询中用到这种机制，来提升计算效率。

如果分桶设计得比较合理，可以避免关联和聚合查询中的混洗(洗牌、打散、重分布)的操作，从而提升性计算性能。

一些查询（sort-merge join、shuffle-hash join、聚合、开窗函数）都需要输入数据按照关联键或聚合键被重分布。更具体地说，具有相同键值的行要被重分布到同一分区。为了满足这个要求，spark需要对数据进行重分布，物理上就是说spark要把数据从一个executor移动到另一个executor，这也就是常说的shuffle。

有了bucketing，我们相当于提前进行了shuffle，并把重分布的结果保存到了存储系统。当我们从存储系统读回这些分桶后的数据时，spark将会感知到这些分布并不会再次执行重分布。也就是常说的，空间换时间。

分桶代码

df.write
  .mode(saving_mode)  # append/overwrite
  .bucketBy(n, field1, field2, ...)
  .sortBy(field1, field2, ...)
  .option("path", output_path)
  .saveAsTable(table_name)

注意点：

1、必须以saveAsTable的方式保存为表。因为分区信息需要保存到元数据中。spark在访问表时会得到关于这个表的分桶信息。

2、sortBy是个可选操作。分桶在没有排序下也可以工作。

3、bucketBy第一个参数是桶的个数。设置桶数量是个挑战，需要考虑数据集整体

了解本专栏