![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 69
Samaritan_H
这个作者很懒,什么都没留下…
展开
-
我和spark有个约会(1)-Spark中的stage的划分原理
我和spark有个约会(1)了解DAGScheduler 阶段对stage的划分原理spark宽窄依赖narrow dependencies:child rdd只依赖于parentrdd[s]的部分固定的partitionwide dependencies:child rdd 每个partition 都依赖于parent rdd[s] 的全部partition(也称之为shu原创 2018-01-09 15:31:52 · 978 阅读 · 0 评论 -
我和spark有个约会(2)-spark 的shuffle过程
shuffle被称为是神奇发生的地方,分为三个部分了解下shuffle的过程: 概览,spark write,spark read为什么需要 shuffle write按照stage划分后的rdd: 详细的任务执行的流程: 从图上可以看出,有依赖的stage之间的数据互通,是通过上个stage的shufflemaptask write 之后,将源数据同原创 2018-01-10 15:34:52 · 495 阅读 · 0 评论 -
spark中的参数设置
之前一直在使用spark,对于spark的参数设置了解过部分。最近当被同事问起时,感觉自己又有点模糊。 好记性不如烂笔头。spark-submit的参数设置spark的运行模式有多种,这边就yarn提交的任务进行说明: 正常用到的参数如下:/bin/spark-submit –master yarn-cluster –num-executors 100 ...原创 2018-03-09 18:16:59 · 7294 阅读 · 0 评论