spark调优
文章平均质量分 94
青于蓝胜于蓝
这个作者很懒,什么都没留下…
展开
-
Spark性能优化:资源调优篇
但凡是资源调优,就是通过软件/程序的环境参数的配置调整,来达到程序运行的相对比较高效率的目的。 比如在spark中配置spark.executor.nums/spark.executor.memory/spark.driver.memory等等。 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命转载 2017-08-28 20:51:41 · 438 阅读 · 0 评论 -
Spark性能优化-Shuffer调优
from:http://spark.apache.org/docs/1.6.2/configuration.html#shuffle-behaviorspark.shuffle.file.buffer以下是Shffule过程中的一些主要参数,这里详细讲解了各个参数的功能、默认值以及基于实践经验给出的调优建议。默认值:32k参数说明:该参数用于设置shufflewrite tas翻译 2017-08-28 21:47:39 · 726 阅读 · 0 评论 -
Spark性能优化:数据数据倾斜(Data Skew)
1.数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task原创 2017-10-05 14:03:32 · 521 阅读 · 0 评论 -
Spark性能优化:开发调优
优化一:避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作(比如map、reduce等)串起来,这个“RDD串”,就是RDD lineage,也原创 2017-10-08 16:32:23 · 263 阅读 · 0 评论