spark性能优化
文章平均质量分 93
beTree_fc
还行吧
展开
-
Spark性能优化 - shuffle问题
转载地址:http://www.raychase.net/3788转载作者:《四火的唠叨》Spark的性能分析和调优很有意思,今天再写一篇。主要话题是shuffle,当然也牵涉一些其他代码上的小把戏。以前写过一篇文章,比较了几种不同场景的性能优化,包括portal的性能优化,web service的性能优化,还有Spark job的性能优化。Spark的性能优化有一些特殊的地方,比如实时性一般不在...转载 2018-04-23 19:49:58 · 788 阅读 · 0 评论 -
csv、parquet、orc读写性能和方式
索引:1.背景2.存储方式3.存储效率4.读写方式5.结论6.其他格式背景 最近在做一个大数据分析平台的项目,项目开发过程中使用spark来计算工作流工程中的每一个计算步骤,多个spark submit计算提交,构成了一个工作流程的计算。其中使用csv来作为多个计算步骤之间的中间结果存储文件,但是csv作为毫无压缩的文本存储方式显然有些性能不够,所以想要寻找一个存储文件效率更高或者执行效率...原创 2018-03-11 21:51:39 · 7393 阅读 · 0 评论 -
spark - 性能优化小keys
1.Spark现在主推的是dataset的api,越来越多的算子可以基于dataset去做,dataset基于天然自带的优化引擎,但是dataset操控能力不如RDD,如果你是大神你应该用的是RDD。2.reduceByKey和groupbykey:reduceByKey会在map端先进行reduce聚合操作,而groupbykey不会提前进行聚合操作,把所有的数据全部传到reduce端,shuf...原创 2018-04-27 10:42:31 · 540 阅读 · 0 评论