![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
Spark的点点滴滴
进阶的橙汁糖
吃饭,睡觉,敲代码
展开
-
大数据-spark-DAG划分Stage-详解
●为什么要划分Stage? --并行计算一个复杂的业务逻辑如果有shuffle,那么就意味着前面阶段产生结果后,才能执行下一个阶段,即下一个阶段的计算要依赖上一个阶段的数据。那么我们按照shuffle进行划分(也就是按照宽依赖就行划分),就可以将一个DAG划分成多个Stage/阶段,在同一个Stage中,会有多个算子操作,可以形成一个pipeline流水线,流水线内的多个平行的分区可以并行执行●如何划分DAG的stage对于窄依赖,partition的转换处理在stage中完成计算,不划分(..原创 2021-03-24 17:03:52 · 619 阅读 · 1 评论 -
大数据-spark-宽窄依赖-原理图解+浅谈
窄依赖:一个RDD中的一个 Partition最多 被一个 子 Partition所依赖(一个父亲有一个儿子)宽依赖:发生shuffle时,一定会产生宽依赖,宽依赖是一个RDD中的一个Partition被多个子Partition所依赖(一个父亲多有儿子),也就是说每一个父RDD的Partition中的数据,都可能传输一部分到下一个RDD的多个partition中,此时一定会发生shuffle...原创 2021-03-24 16:43:11 · 284 阅读 · 0 评论 -
大数据-spark-Standby Masters with ZooKeeper-原理图解
可用于生产环境原创 2021-03-23 10:44:45 · 121 阅读 · 0 评论