spark更改分区_合理设置Spark数据分区

最新推荐文章于 2024-05-07 22:53:47 发布

雲明

最新推荐文章于 2024-05-07 22:53:47 发布

阅读量2.1k

点赞数

文章标签： spark更改分区

本文链接：https://blog.csdn.net/weixin_32921023/article/details/111963145

版权

在Hadoop的map-reduce编程模型中，框架要做的第一步事情，也是对数据进行分块切分，然后对每块数据调用mapper程序进行处理，mapper处理完将结果交给reducer进行第二阶段的处理。

在Spark中，也是同样的逻辑。Spark会先对数据进行分区处理，然后在每个分区数据上调用一个task执行线程来执行相应的计算。

在使用Python调用Spark的API的时候，首先就是加载数据，使用sc.textFile()方法来调用。sc.textFile()除了文件路径外，还有另外两个非常实用的参数：minPartitions: 最少分区数目

use_unicode: 文件使用的编码

尤其是minPartitions这个参数，可以强行指定数据最少的分区数目，增加这个数值，就会降低每个分区的数据量。对于小型数据，但大运算量的程序(机器学习中常用的算法挖掘)，如果不手动指定最少分区数，系统会根据默认的数据分区策略，可能只会将数据分成很少的一个或者几个分区，此时尽管还有大量空闲可用CPU资源，系统也会根据相应的分区数目来调用相应的一个或者几个task来执行。

此时，并没有达到真正将计算并行的效果。就像现在有一块非常大的石头，要从A地搬运到B地，老板派了几十个人来做这件事情，可是按照默认的分块机制，只将当前的大石头分成了两个小块，由两个人来搬运(其它人也帮不上忙)。剩下的几十个人只能干望着，使不上力。而那两个人却一直非常累。如果将大石头分成二十个小块，由二十个人同时搬运，此时每个人估计就只有非常小的一块了，基本上可以说在路上飞起来了，自然总的搬运时间就会快很多。

在yarn模式下&#

最低0.47元/天解锁文章

雲明

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark更改分区_合理设置Spark数据分区

在Hadoop的map-reduce编程模型中，框架要做的第一步事情，也是对数据进行分块切分，然后对每块数据调用mapper程序进行处理，mapper处理完将结果交给reducer进行第二阶段的处理。在Spark中，也是同样的逻辑。Spark会先对数据进行分区处理，然后在每个分区数据上调用一个task执行线程来执行相应的计算。在使用Python调用Spark的API的时候，首先就是加载数据，使用s...
复制链接

扫一扫