Spark-face
文章平均质量分 92
二府村
Spark本命
展开
-
Spark系列之数据倾斜:数据倾斜之痛
本博文的主要内容包括: Spark性能真正的杀手 数据倾斜多么痛 1、关于性能调优首先谈数据倾斜,为什么? (1)因为如果数据倾斜,其他所有的调优都是笑话,因为数据倾斜主要导致程序跑步起来或者运行状态不可用。 (2)数据倾斜最能代表spark水平的地方,spark是分布式的,如果理解数据倾斜说明你对spark运行机制了如指掌。2、数据倾斜两大直接致命性的后果: (1)、OOM,原创 2016-09-10 08:30:27 · 2048 阅读 · 0 评论 -
Spark数据倾斜解决原理和方法总论
本博文主要包含以下内容:1、Spark数据倾斜解决的原理方法总论 2、Spark数据倾斜解决方法总论一:均衡数据是我们的目标,或者说我们要解决数据倾斜的发力点。一般说shuffle是产生数据倾斜的主要原因,为什么shuffle产生数据倾斜主要是因为网络通信,如果计算之前通过ETL(ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Busine原创 2016-09-10 12:41:05 · 3686 阅读 · 0 评论