spark的性能优化的方式

  1. spark提供了两种序列化机制,Java的序列化和kryo序列化,使用kryo序列化占用更小的内存,但是kryo的缺点是:不是所有都能序列化,而且需要注册
  2. 优化数据结构,比如优先使用数组和字符串,而不是集合
  3. 对多次使用的rdd进行持久化和checkpoint()
  4. Java虚拟机的垃圾回收机制的调优,主要是调节新生代和老年代的大小和比例,通过配置参数来进行调节
  5. 提高并行度 spark.default.parallism=60 建议是总cpu的数量*2到3倍,也可以在比如使用reduceByKey的时候在填上参数,该参数就是几个reduce任务并行执行,如:reduceByKey(5)
  6. 使用广播变量,占用更少的资源 sc.broadcast(xxx)
  7. 数据本地化 process_local ….
  8. shuffle调优,最重要的,比如开启consolidateFile机制,文件缓存的大小,抓取的大小等等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值