SysOps | AWS云计算

✎ 个人博客:www.elon33.com ® 欢迎访问丨靡不有初,鲜克有终;不忘初心,方得始终丨大数据方向自学探索者 ™️ ✎ ❝ 欢迎各位朋友访问本博客及附带资源,谦虚学习,广交良友~ ❞...

Spark调优与学习笔记

【1】数据本地行存储,将存储与计算同节点部署
【2】存储格式选择列式存储,如Parquet,减少读IO量,压缩比高,减少存储空间。
【3】选择合理的Partition Key,防止数据倾斜或任务倾斜。
【4】对复用的RDD进行cache缓存操作
【5】尽可能避免shuffle,如:用reduceByKey代替groupByKey
【6】尽可能实用Spark SQL实现Spark计算,因为其内部自带优化器,可以自动优化程序。

阅读更多

扫码向博主提问

去开通我的Chat快问

coder__cs

非学,无以致疑;非问,无以广识
  • 擅长领域:
  • hadoop
  • 大数据
  • aws
  • 云计算
  • 自动化运维
版权声明:✔️ 觉得此文有用的,不嫌麻烦的,就留个言呐 或者点个赞呐 | 博文原地址➡️ https://blog.csdn.net/Coder__CS/article/details/79662700
文章标签: spark优化
个人分类: ➣ Spark
上一篇Hadoop MapReduce 计算框架剖析与学习笔记
下一篇面试笔记之查看linux系统内存的几种方式
想对作者说点什么? 我来说一句

spark调优指导

2016年07月21日 2.41MB 下载

没有更多推荐了,返回首页

关闭
关闭