Spark shuffle调优

最新推荐文章于 2022-09-30 23:06:36 发布

haixwang

最新推荐文章于 2022-09-30 23:06:36 发布

阅读量808

点赞数 1

分类专栏： Hadoop、Spark、Hbase...

本文链接：https://blog.csdn.net/HaixWang/article/details/90714219

版权

Hadoop、Spark、Hbase... 专栏收录该内容

42 篇文章 3 订阅

订阅专栏

一、优化前：

shuffle写的比例为输入数据的1.5倍：
在这里插入图片描述

二、优化后：

在这里插入图片描述

三、RDD压缩

spark.shuffle.compress
序列化后，shuffle write仍然较大，考虑压缩
sparkConf.set("spark.rdd.compress", "true")

四、序列化优化

4-1、kyro注册

sparkConf.registerKryoClasses(Array(classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Put],classOf[org.apache.hadoop.hbase.client.Result]))

kryo官方的一个例子

import com.esotericsoftware.kryo.Kryo;
import com.esotericsoftware.kryo.io.Input;
import com.esotericsoftware.kryo.io.Output;
import java.io.*;

public class HelloKryo {
   static public void main (String[] args) throws Exception {
      Kryo kryo = new Kryo();
      kryo.register(SomeClass.class);

      SomeClass object = new SomeClass();
      object.value = "Hello Kryo!";

      Output output = new Output(new FileOutputStream("file.bin"));
      kryo.writeObject(output, object);
      output.close();

      Input input = new Input(new FileInputStream("file.bin"));
      SomeClass object2 = kryo.readObject(input, SomeClass.class);
      input.close();   
   }
   static public class SomeClass {
      String value;
   }
}

4-2、序列化缓存

源码如下：
在这里插入图片描述

spark.shuffle.consolidateFiles

参考：

spark tuning

haixwang

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark shuffle调优

一、优化前：shuffle写的比例为输入数据的1.5倍：二、优化后：三、RDD压缩spark.shuffle.compress序列化后，shuffle write仍然较大，考虑压缩sparkConf.set("spark.rdd.compress", "true")四、序列化优化4-1、kyro注册sparkConf.registerKryoClasses(Array(cla...
复制链接

扫一扫