Spark调优与学习笔记

版权声明:欢迎转载,注明作者和出处就好!如果不喜欢或文章存在明显的谬误,请留言说明原因再踩哦,谢谢,我也可以知道原因,不断进步! https://blog.csdn.net/Coder__CS/article/details/79662700

【1】数据本地行存储,将存储与计算同节点部署
【2】存储格式选择列式存储,如Parquet,减少读IO量,压缩比高,减少存储空间。
【3】选择合理的Partition Key,防止数据倾斜或任务倾斜。
【4】对复用的RDD进行cache缓存操作
【5】尽可能避免shuffle,如:用reduceByKey代替groupByKey
【6】尽可能实用Spark SQL实现Spark计算,因为其内部自带优化器,可以自动优化程序。

阅读更多

扫码向博主提问

Elon'

非学,无以致疑;非问,无以广识
  • 擅长领域:
  • hadoop
  • 大数据
  • aws
  • 云计算
  • 自动化运维
去开通我的Chat快问

没有更多推荐了,返回首页