一、优化前:
shuffle写的比例为输入数据的1.5倍:
二、优化后:
三、RDD压缩
spark.shuffle.compress
序列化后,shuffle write仍然较大,考虑压缩
sparkConf.set("spark.rdd.compress", "true")
四、序列化优化
4-1、kyro注册
sparkConf.registerKryoClasses(Array(classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Put],classOf[org.apache.hadoop.hbase.client.Result]))
import com<