自己 spark 优化心得

最新推荐文章于 2023-02-20 15:58:00 发布

Apache_Jerry

最新推荐文章于 2023-02-20 15:58:00 发布

阅读量251

点赞数

分类专栏：学习笔记各种坑文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Apache_Jerry/article/details/105538652

版权

学习笔记同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

4 篇文章 1 订阅

订阅专栏

Spark 优化

资源调优

1. 阻塞间隔

有一个配置参数：spark.streaming.blockInterval，它的意思是每间隔多少秒后，Spark才把接收到的数据组成数据块存到Spark中。官网推荐的最小值是50ms，默认值200ms。假设实例化InputDStream时设置的Duration(batch interval)为1秒（1000ms），那么任务执行时，总共有 1000 / 200 = 5 个block，每个block将对应一个task。如果task的数量少于每台机器配置的core的数量，则说明资源没有被很好的利用。应减少 spark.streaming.blockInterval 或增加batch interval。

注意：官网并没有说要使得task的数量和core的数量一致。能想到两个的原因：（1）receiver也会占用core （2）driver也会占用core

2. 设置正确的Batch Interval

每个时间间隔提交的job应该能处理完这个时间间隔内收到的数据。可以通过Web UI 去查看批处理的时间是否小于interval

3. executors , 内存核心数等分配

可以先设置的比较大,然后根据spark 的Web UI 来确定合适的资源分配.

代码调优

避免创建重复的RDD, 尽可能复用RDD,对多次使用的RDD进行持久化

数据倾斜

美团解决数据倾斜的方案

https://tech.meituan.com/2016/05/12/spark-tuning-pro.html

参考链接

spark调优指南,8各个方面 https://zhuanlan.zhihu.com/p/54293797
美团spark性能优化基础篇 https://tech.meituan.com/2016/04/29/spark-tuning-basic.html
美团spark性能优化高级篇 https://tech.meituan.com/2016/05/12/spark-tuning-pro.html

未完待续…

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自己 spark 优化心得

Spark 优化资源调优1. 阻塞间隔有一个配置参数：spark.streaming.blockInterval，它的意思是每间隔多少秒后，Spark才把接收到的数据组成数据块存到Spark中。官网推荐的最小值是50ms，默认值200ms。假设实例化InputDStream时设置的Duration(batch interval)为1秒（1000ms），那么任务执行时，总共有 1000 / 2...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。