spark 笔记(二) 参数设置和调优

本文总结了在将Spark程序迁移到Yarn过程中的一些关键配置调整和优化,包括对象序列化、通信消息大小、缓存堆空间控制、并行度设置等。通过合理设置如`spark.serializer`、`spark.kryoserializer.buffer.mb`、`spark.akka.frameSize`、`spark.storage.memoryFraction`、`num-executors`、`executor-cores`、`spark.default.parallelism`和`spark.hadoop.mapreduce.input.fileinputformat.split.minsize`,可以提升性能并避免资源浪费。建议根据Spark UI监控信息进行调整。
摘要由CSDN通过智能技术生成

在迁移相关的spark程序到yarn的过程中间,对有些地方的配置进行了调整和优化, 总结起来,常用的一些设置如下:

1. spark.serializer 对象的序列化设置可以设置成spark的序列化类型,相对比较高效和紧凑,网络传输性能比较好

 2. spark.kryoserializer.buffer.mb 用来设置对象序列化占用空间大小,当对象比较大的时候需要设置这个选项  

 3. spark.akka.frameSize 控制通信中消息的最大容量,默认为10M, 可以根据日志中的serialized size of result 来确定是否有问题 

 以上相关的配置可以通过以下方式或者在环境变量里面设置:


4. spark.storage.memoryFraction 用来控制缓存的堆空间,如果RDD占用内存较小,可以把该参数设置小一点,不然会在启动的时候默认分配2/3的堆内存用来作为cache.

5. 并行相关的设置

     a.   num-executors 用来设置执行任务的executor

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值