Spark调优第一篇

最新推荐文章于 2024-05-10 09:14:07 发布

diudiu2025

最新推荐文章于 2024-05-10 09:14:07 发布

阅读量365

点赞数

分类专栏： spark 文章标签： Spark调优第一篇 spark 集群管理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/diudiu2025/article/details/78237353

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

最初级的早启动spark-shell时这些设置的

./bin/spark-submit \

--master yarn-cluster \

--num-executors 100 \

--executor-memory 6G \

--executor-cores 4 \

--driver-memory 1G \

--conf spark.default.parallelism=1000 \

--conf spark.storage.memoryFraction=0.5 \

--conf spark.shuffle.memoryFraction=0.3 \

通过spark的资源管理界面可以看到每个exceutors中cores和tasks的具体执行情况

很多时候在想集群申请了资源后通过这看到的executors的task和cores还是空闲的，数据基本分布在少量的executor上

那么两点：

1，确实只用了少量的资源最初申请的资源浪费了

2，这个页面是随着stage的运行动态刷新的意味着每个excecutors上的分配的数据执行完后就显示空闲了比如我这个截图（实际任务执行的飞起！！！）

剩下的纯属猜测了

对数据repartition之后如果是大于excecutors的数量，则会排队分配给executors执行比如repartition（300），executors：30,则driver先把

数据拿30分分给executors,等这些数据处理完了再分配新的数据。

所以repartition分的少于excecutors不行不能少而且太少好会出Size exceeds Integer.MAX_VALUE的错误

如果分的比较少executors的内存hold不住要计算的数据所以OOM了

如果分的太多意味着executors要反复执行，效率会降低。（但是感觉只要executors不是闲置了，基本不会有影响）

基本是在YY

最后

补充一下调参的方式除了在spark-shell启动时加在后面还可以

修改配置文件(不提倡)：

SPARK配置参数的两个地方：

1. $SPARK_HOME/conf/spark-env.sh 脚本上配置。配置格式如下：

export SPARK_DAEMON_MEMORY=1024m

感觉spark_default.xml中也有相关参数的配置

2. 编程的方式（程序中在创建SparkContext之前，使用System.setProperty（“xx”，“xxx”）语句设置相应系统属性值)，即在spark-shell下配置

如： scala> System.setProperty("spark.akka.frameSize","10240m")

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark调优第一篇

最初级的早启动spark-shell时这些设置的./bin/spark-submit \--master yarn-cluster \--num-executors 100 \--executor-memory 6G \--executor-cores 4 \--driver-memory 1G \--conf spark.default.parallelism=100
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。