RDD的内核调度——Spark的并行度

傻么老幺

于 2024-03-30 20:00:52 发布

阅读量312

点赞数 1

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43428465/article/details/137181377

版权

Spark的并行度是决定Spark程序执行效率非常重要的因素。资源充足情况下，一般并行度越高, 执行效率越高。

Spark的并行度主要决定于如下的两个因素:
       1. 资源因素.
           由提交任务时, 所申请的Executor数量和 CPU核数, 内存来决定的.
       2. 数据因素.
           数据的大小, 对应分区数量以及Task线程.

当申请的资源比较大的时候, 如果数据量不大, 这样虽然不会影响执行效率, 但是会造成资源浪费.
当申请的资源比较小的时候, 如果数据量比较大, 会导致没有相应的资源来执行, 本来是能并行执行的, 变成了串行, 影响整个执行效率.

如何调整并行度呢?
      调整的标准: 在合适的资源上, 运行合适的任务, 产生合适的并行度.
      除了给出一些经验值以外, 更多的还需要我们不断的调试.
           经验值:
               1个CPU核上运行 2 ~ 3个线程, 1个CPU对应内存大小为 3 ~ 5GB
           手动设置:
               conf.set("spark.defalut.parallelism", 4)   设置并行度为4

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
RDD的内核调度——Spark的并行度

当申请的资源比较小的时候, 如果数据量比较大, 会导致没有相应的资源来执行, 本来是能并行执行的, 变成了串行, 影响整个执行效率.conf.set("spark.defalut.parallelism", 4) 设置并行度为4。由提交任务时, 所申请的Executor数量和 CPU核数, 内存来决定的.当申请的资源比较大的时候, 如果数据量不大, 这样虽然不会影响执行效率, 但是会造成资源浪费.调整的标准: 在合适的资源上, 运行合适的任务, 产生合适的并行度.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

傻么老幺 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。