Spark性能调优

最新推荐文章于 2024-07-22 20:36:44 发布

iT执行人

最新推荐文章于 2024-07-22 20:36:44 发布

阅读量103

点赞数

分类专栏： spark 文章标签： spark 性能调优

本文链接：https://blog.csdn.net/u014789086/article/details/101051871

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、使用kryo序列化类库
2、优化算子函数的数据结构，少用包装数据类型Integer或者HashMap，Linklist等，可以用原始类int等int[]，一般Map<String,Person>，可以使用特殊字符串来存储，不如JsonString拼接
3、使用checkpoint或者cache、persist持久化
4、使用序列化的持久化级别
5、java虚拟机垃圾回收调优
调整executor内存占比 rdd的partition：task 6:4
6、提高并行度
conf.set(“spark.default.parallelism”,“5”)
7、广播共享数据
8、数据本地化
9、算子优化（reduceByKey、GroupByKey）
10、shuffle性能调优
“spark.shuffle.consolidateFiles”,“true”
“spark.reducer.maxSizeInFight”:reduce task的拉取缓存，默认48M
“spark.shuffle.file.buffer”:map task的鞋磁盘缓存，默认43k
“spark.shuffle.io.maxRetries”:拉取失败的最大重试次数，默认3次
“spark.shuffle.io.retryWait”:拉取失败的重试间隔，默认5s
“spark.shuffle.memoryFraction”:用于reduce端聚合的内存比例，默认0.2，超过比例就会溢出写到磁盘

iT执行人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark性能调优

1、使用kryo序列化类库2、优化算子函数的数据结构，少用包装数据类型Integer或者HashMap，Linklist等，可以用原始类int等int[]，一般Map<String,Person>，可以使用特殊字符串来存储，不如JsonString拼接3、使用checkpoint或者cache、persist持久化4、使用序列化的持久化级别5、java虚拟机垃圾回收调优调整e...
复制链接

扫一扫