![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
#Spark调优
daladongba
这个作者很懒,什么都没留下…
展开
-
spark调优之数据倾斜
一、数据倾斜概述 数据倾斜原理 在进行任务计算shuffle操作的时候,少数的task被分配到了大量的数据,是其他task的十倍甚至百倍,导致最终整个spark任务计算特别慢。 如何定位原因 主要是根据log日志信息去定位 分析定位逻辑,由于代码中有大量的shuffle操作,一个job会划分为多个stage,我们可以观察任务的UI界面,观察是哪一个stage中的task分配主句不均匀,根据代码逻辑分析是哪个算子导致的 某个task莫名内存溢出的情况,我们可以直接看yarn-client模式下本地l原创 2020-06-08 11:22:10 · 161 阅读 · 0 评论 -
Spark调优
Spark调优1.分配更多资源2.提高并行度3. RDD的重用和持久化4. 广播变量的使用5. 尽量避免使用shuffle类算子6. 使用高性能的算子7. 使用Kryo优化序列化性能8. 使用fastutil优化数据格式9. 调节数据本地化等待时长10. 基于Spark内存模型调优 1.分配更多资源 1、增加–num-executors、增加–executor-cores,这两个参数增加后能够提升task的并行度 2、增加–driver-memory,在shuffle时reduce操作会先将map端来的数原创 2020-06-08 09:21:19 · 201 阅读 · 0 评论