spark性能调优

最新推荐文章于 2023-04-06 21:37:13 发布

cm_chenmin

最新推荐文章于 2023-04-06 21:37:13 发布

阅读量412

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/cm_chenmin/article/details/52758191

版权

spark 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

1.数据序例化
用Kryo序例化代替默认的java序例化，java序例化的优点是灵活，能序例化任何实现了接口java.io.Serializable的类；缺点是执行速度慢，序例化的结果占用字节数大；Kryo序例化速度快，序例化结果占用字节小(一般只有前者的十分之一)，缺点是不支持所有可序例化类型并且要求用户注册程序中用到的需要序例化的类型
开启Kryo序例化：
val conf = new SparkConf().setMaster(...).setAppName(...)
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") //这个可以在配置文件做全局配置
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

2.并行度
RDD被分为一系列的分区，每个分区是整个数据的一个子集，运行任务时，Spark为每一个分区的数据创建一个任务，一个任务一般需要一个计算核心来执行，并行度过低时出现资源闲置的情况，过高时每个分区产生的间接开销累计起来就会很大。评判并行度是否过高的标准就是任务是否在瞬间(毫秒级)完成的，或者是否观察到任务没有读写任何数据。Spark提供了二种方法来调整并行度，第一种方法是在数据混洗操作时，使用参数的方式为混洗后的RDD指定并行度。第二种方法是对任何已有的RDD进行重新分区来获得更多或者更少的分区数

3.内存管理

序例化RDD存储，用序例化存储级别，比如： StorageLevels.MEMORY_ONLY_SER,Spark将以字节数组的格式存储RDD分区以减少内存的使用垃圾收集调优：通加添加Java选项：-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps，收集垃圾收集的一些统计信息，比如垃圾收集的频繁度和垃圾收集花费的时间来确认相关Java选项设置是否合理。对于堆空间比较大的情况，可以启用G1垃圾收集器-XX:+UseG1GC

美团工程师发的性能优化好文推荐：

http://www.open-open.com/lib/view/open1462201592113.html
http://tech.meituan.com/spark-tuning-pro.html

cm_chenmin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark性能调优

1.数据序例化用Kryo序例化代替默认的java序例化，java序例化的优点是灵活，能序例化任何实现了接口java.io.Serializable的类；缺点是执行速度慢，序例化的结果占用字节数大；Kryo序例化速度快，序例化结果占用字节小(一般只有前者的十分之一)，缺点是不支持所有可序例化类型并且要求用户注册程序中用到的需要序例化的类型开启Kryo序例化：val conf = new
复制链接

扫一扫