spark
NUllBoss
这个作者很懒,什么都没留下…
展开
-
spark整体概述
Spark整体概述1.1整体概念Apache Spark是一个开源的通用集群计算系统,他提供了High-level编程API,支持Scala,Java和Python三种编程语言。Spark内核使用scala编写,通过基于Scalade 函数式编程特性,在不同的计算层面进行抽象。1.2 RDD抽象RDD(Resilient Distributer Datasets),弹性分布...原创 2019-10-14 16:46:48 · 200 阅读 · 0 评论 -
Spark的RDD原理以及2.0特性的介绍
转载自:http://www.tuicool.com/articles/7VNfyif王联辉,曾在腾讯,Intel 等公司从事大数据相关的工作。2013 年 - 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发。曾负责 Intel Hadoop 发行版的 Hive 及 HBase 版本研发。参与过百度用户行为数据仓库的建设和开发,以及淘宝数据魔方和淘宝指数的数据开发工作...转载 2019-10-14 15:42:21 · 229 阅读 · 0 评论 -
Spark 任务生成以及提交总结
对spark任务提交源码进行初步阅读梳理下流程其中stage的划分: Spark调度阶段的划分是由DAGScheduler实现的,DAGScheduler会从最后一个Rdd出发,使用广度优先遍历整个依赖树,从而划分调度阶段,依据是否为宽依赖,当某些Rdd操作是Shuffle时,以该Shuffle操作为界限划分前后两个调度阶段。...原创 2019-10-08 16:09:58 · 276 阅读 · 1 评论