Spark性能优化五之提高并行度

最新推荐文章于 2024-05-04 15:53:03 发布

廉立伟--big data

最新推荐文章于 2024-05-04 15:53:03 发布

阅读量654

点赞数

本文链接：https://blog.csdn.net/weixin_37789219/article/details/82983533

版权

设置合理的并行度，来充分地利用集群的资源
使用spark.default.parallelism参数，来设置统一的并行度。Spark官方的推荐是，给集群中的每个cpu core设置2~3个task。
比如说，spark-submit设置了executor数量是10个，每个executor要求分配2个core，那么application总共会有20个core。此时可以设置new SparkConf().set(“spark.default.parallelism”, “60”)来设置合理的并行度，从而充分利用资源。
Spark会自动设置以文件作为输入源的RDD的并行度，依据其大小，比如HDFS，就会给每一个block创建一个partition，也依据这个设置并行度。对于reduceByKey等会发生shuffle的操作，就使用并行度最大的父RDD的并行度即可。

在这里插入图片描述
还可以在代码中为算子传入个参数reduceBykey(+,partition)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

廉立伟--big data

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark性能优化五之提高并行度

设置合理的并行度，来充分地利用集群的资源使用spark.default.parallelism参数，来设置统一的并行度。Spark官方的推荐是，给集群中的每个cpu core设置2~3个task。比如说，spark-submit设置了executor数量是10个，每个executor要求分配2个core，那么application总共会有20个core。此时可以设置new SparkConf(...
复制链接

扫一扫