On the way

丨靡不有初,鲜克有终;不忘初心,方得始终丨大数据方向自学探索者 | 欢迎交流学习 ™️...

Spark调优与学习笔记

【1】数据本地行存储,将存储与计算同节点部署
【2】存储格式选择列式存储,如Parquet,减少读IO量,压缩比高,减少存储空间。
【3】选择合理的Partition Key,防止数据倾斜或任务倾斜。
【4】对复用的RDD进行cache缓存操作
【5】尽可能避免shuffle,如:用reduceByKey代替groupByKey
【6】尽可能实用Spark SQL实现Spark计算,因为其内部自带优化器,可以自动优化程序。

阅读更多
版权声明:✔️ 觉得此文有用的,不嫌麻烦的,就留个言呐,或者点个赞呐 https://blog.csdn.net/Coder__CS/article/details/79662700
文章标签: spark优化
个人分类: Spark
想对作者说点什么? 我来说一句

spark调优指导

2016年07月21日 2.41MB 下载

没有更多推荐了,返回首页

不良信息举报

Spark调优与学习笔记

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭