Spark性能调优之调节task并行度

最新推荐文章于 2024-05-04 15:53:03 发布

博闻强识plus

最新推荐文章于 2024-05-04 15:53:03 发布

阅读量2.6k

点赞数 2

分类专栏： spark Hadoop生态

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lilei19921109/article/details/93789656

版权

Spark并行度是什么？

我们写的spark作业就称为application；
一个application有多个job（一个action比如：collect操作触发一个job）；
每个job在发生shuffle（比如：reduceByKey）时，就会被拆成一个stage；
每个stage被拆为多个task，task被分配到executor上执行，一个task会有一个线程去执行，一个task处理一小片数据。

reduceByKey，前为stage0，后为stage1 ：
stage0执行到reduceByKey时，会为后面stage1的每个task，都创建一个文件；
stage1的每个task，会在各个节点上的各个task创建的属于自己的文件（每个文件里，一定存放相同key对应的values；但一个文件可能有多个key，及其对应的values；相同key的values一定是进入同一个文件），拉取数据；
stage1的每个task所拉取到的数据，一定是相同key对应的数据。因为针对相同key对应的values，才能去执行执行自定义的function操作(+)。

spark并行度：指的就是spark作业中，各个stage的task数量。也就代表了spark作业在各个阶段（stage）的并行度。

问题：

如果不调节并行度，会有什么后果？

假设：已经给spark

最低0.47元/天解锁文章

博闻强识plus

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
Spark性能调优之调节task并行度

Spark并行度是什么？我们写的spark作业就称为application；一个application有多个job（一个action比如：collect操作触发一个job）；每个job在发生shuffle（比如：reduceByKey）时，就会被拆成一个stage；每个stage被拆为多个task，task被分配到executor上执行，一个task会有一个线程去执行，一个task处理一小...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。