介绍Spark分桶的原理以及如何在数据分析和数据准备中更好的应用分桶。
分桶概念
spark的bucketing分桶是一种组织存储系统中数据的方式。以便后续查询中用到这种机制,来提升计算效率。
如果分桶设计得比较合理,可以避免关联和聚合查询中的混洗(洗牌、打散、重分布)的操作,从而提升性计算性能。
一些查询(sort-merge join、shuffle-hash join、聚合、开窗函数)都需要输入数据按照关联键或聚合键被重分布。更具体地说,具有相同键值的行要被重分布到同一分区。为了满足这个要求,spark需要对数据进行重分布,物理上就是说spark要把数据从一个executor移动到另一个executor,这也就是常说的shuffle。
有了bucketing,我们相当于提前进行了shuffle,并把重分布的结果保存到了存储系统。当我们从存储系统读回这些分桶后的数据时,spark将会感知到这些分布并不会再次执行重分布。也就是常说的,空间换时间。
分桶代码
df.write
.mode(saving_mode) # append/overwrite
.bucketBy(n, field1, field2, ...)
.sortBy(field1, field2, ...)
.option("path", output_path)
.saveAsTable(table_name)
注意点:
1、必须以saveAsTable的方式保存为表。因为分区信息需要保存到元数据中。spark在访问表时会得到关于这个表的分桶信息。
2、sortBy是个可选操作。分桶在没有排序下也可以工作。
3、bucketBy第一个参数是桶的个数。设置桶数量是个挑战,需要考虑数据集整体