关于spark落盘到hdfs的文件分发规则及处理总结

最新推荐文章于 2023-12-26 22:53:16 发布

VIP文章加州小清新学长

最新推荐文章于 2023-12-26 22:53:16 发布

阅读量1.3k

点赞数

文章标签： spark hdfs big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aline12/article/details/123051627

版权

近期又遇到了不少有关spark/hive表落盘到hdfs的问题，借此机会系统性的记录下学习过程。

此次记录的核心语句就是之前老生常谈的distribute by命令，其后跟的规则不同会产生截然不同的效果

首先回顾下落盘的过程，每一个reducer都会往某一指定路径下写一个文件，有时候一个reducer只写一个路径，有时候会写多个路径，但核心点在于每一个reducer只会在某一路径下写一个文件。

我们经常会遇到的小文件过多的问题，以及脚本运行很慢甚至卡死的情况（数据倾斜），其实大多数情况下都和落盘的过程有关。

来看下最基本的两种情况，先假设有50个reducer，数据分为pdate= 01,02,03三个分区

1. distribute by rand

2.distribute by 某一固定值，如distribute by 1

这是非常经典的两个场景：

对于1，结果集的每一条记录都会打上一个随机数的标签，相同的随机数会被分到同一个reducer进行计算以及落盘，显而易见，比如pdate01的数据会近乎被均分为50份，分发到50个reducer上，同时每个reducer都会往pdate01对应的hdfs路径下写一个文件，这样01分区下总共会有50个文件，同理02，03也为50个文件

对于2，所有分区的所有数据，均会被打上同一个标签，这意味着所有的数据都会分发到同一个reducer上，然后这个reducer分别往01，02，03三个分区下的路径下各自写一个文件，这样01，02，03分区路径下，分别都有1个文件。

从过程中可以得出结论ÿ

最低0.47元/天解锁文章

加州小清新学长

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于spark落盘到hdfs的文件分发规则及处理总结

近期又遇到了不少有关spark/hive表落盘到hdfs的问题，借此机会系统性的记录下学习过程。此次记录的核心语句就是之前老生常谈的distribute by命令，其后跟的规则不同会产生截然不同的效果首先回顾下落盘的过程，每一个reducer都会往某一指定路径下写一个文件，有时候一个reducer只写一个路径，有时候会写多个路径，但核心点在于每一个reducer只会在某一路径下写一个文件。我们经常会遇到的小文件过多的问题，以及脚本运行很慢甚至卡死的情况（数据倾斜），其实大多数情况下都和落盘的
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。