spark性能调优之核心参数调优-->spark大数据商业实战三部曲读书笔记

num-executors 该参数一定被设置, 为当前Application生产指定个数的Executors 实际生产环境分配80个左右的Executors
executor-memory 与JVM OOM紧密相关,很多时候甚至决定了spark运行的性能 实际生产环境下建议8GB左右 若运行在yarn上,内存占用量不超过yarn的内存资源的50%
excutor-cores 决定了在Executor中能够并行执行的Task的个数 实际生产环境建议4个左右 不超过yarn队列中Cores总数的50%
driver-memory 作为驱动,默认是1GB 生产环境一般设置4GB
spark.default.parallelism 建议至少设置100个,最好是700个左右
spark.storage.memoryFraction 默认占用60%,如果计算比较依赖于历史数据,则可以适当调高该参数,如果计算严重依赖于shuffle,则需要降低该比例
spark.shuffle.memoryFraction 默认占用20% 如果计算严重依赖于shuffle,则需要提高该比例
supervise 配置这个参数,当Driver运行在Cluster集群,如果出问题了,可自动重新启动

附上

原博客地址

转载于:https://my.oschina.net/u/3327812/blog/2239935

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值