spark
fzyedu1111
这个作者很懒,什么都没留下…
展开
-
spark性能调优——资源调优
资源调优目录资源调优调优概述Spark作业基本运行原理资源参数调优num-executorsexecutor-memoryexecutor-coresdriver-memoryspark.default.parallelismspark.storage.memoryFractionspark.shuffle.memoryFraction资源参数参...转载 2018-12-26 14:28:28 · 188 阅读 · 0 评论 -
spark性能调优——数据倾斜调优
目录 调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数据解决方案二:过滤少数导致倾斜的key解决方案三:提高shuffle操作的并行度解决方案四:两阶段聚合(局部聚合...转载 2018-12-26 14:34:05 · 260 阅读 · 2 评论 -
spark性能调优——shuffle调优
目录 调优概述ShuffleManager发展概述HashShuffleManager运行原理未经优化的HashShuffleManager优化后的HashShuffleManagerSortShuffleManager运行原理普通运行机制bypass运行机制shuffle相关参数调优spark.shuffle.file.bufferspark.re...转载 2018-12-26 14:36:35 · 252 阅读 · 1 评论 -
spark调优总览
spark调优整体分为四个部分 一、开发调优https://blog.csdn.net/fzyedu1111/article/details/85260255二、资源调优https://blog.csdn.net/fzyedu1111/article/details/85261487三、数据倾斜调优https://blog.csdn.net/fzyedu1111/art...原创 2018-12-26 11:56:09 · 330 阅读 · 5 评论 -
spark性能调优——开发调优
开发调优目录开发调优概述原则一:避免创建重复的RDD一个简单的例子原则二:尽可能复用同一个RDD一个简单的例子原则三:对多次使用的RDD进行持久化对多次使用的RDD进行持久化的代码示例Spark的持久化级别如何选择一种最合适的持久化策略原则四:尽量避免使用shuffle类算子Broadcast与map进行join代码示例原则五:使用map-s...转载 2018-12-26 12:59:52 · 228 阅读 · 0 评论