最近的项目数据太大,小周终于也投入了大数据的怀抱,开始了Spark编程学习之路,被迫营业
系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记,方便回顾
windows环境可以参考这里Pyspark配置
-
Spark概述
- Spark最初由美国加州大学伯克利分校(UC Berkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序
- 2013年Spark加入Apache孵化器项目后发展迅猛,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(Hadoop、Spark、Storm)
- Spark在2014年打破了Hadoop保持的基准排序纪录
- 支持多语言
大数据主要的关键技术基础是分布式存储和分布式处理
Hadoop生态通过MapReduce实现数据的分布式处理,而Spark是用来代替MapReduce的一种更高效的组件,Spark只是代替了MapReduce的分布式处理,而分布式存储目前的主流框架仍是基于Hadoop生态中的HDFS组件。
- 使用Hadoop进行迭代计算(mapreduce)非常耗资源
- Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据
Spark会取代Hadoop吗?
Spark和Hadoop生态系统共存共荣
Hadoop包括两大核心:HDFS和MapReduce
Spark作为计算框架,与MapReduce是对等的
谈到“取代”,Spark应该是取代MapReduce,而不是整个Hadoop
Spark借助于Hadoop的HDFS、HBase等来完成数据的存储,然后,由Spark完成数据的计算
-
Spark运行基本流程
- 一个应用由一个Driver和若干个作业构成,一个作业由多个阶段构成,一个阶段由多个没有Shuffle关系的任务组成。
- 当执行一个应用时,Driver会向集群管理器申请资源,启动Executor,并向Executor发送应用程序代码和文件,然后在Executor上执行任务,运行结束后,执行结果会返回给Driver,或者写到HDFS或者其他数据库中
-
RDD运行原理
1.设计背景
2.RDD概念
- 一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,从而可以在集群中的不同节点上进行并行计算
- RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,不能直接修改,只能基于稳定的物理存储中的数据集创建RDD,或者通过在其他RDD上执行确定的转换操作(如map、join和group by)而创建得到新的RDD
3.RDD执行过程
4.根据RDD的依赖关系划分阶段
宽依赖:(一对多)
逻辑上,每个RDD 操作都是一个fork/join(一种用于并行执行任务的框架),把计算fork 到每个RDD 分区,完成计算后对各个分区得到的结果进行join 操作,然后fork/join下一个RDD 操作。
所以对于窄依赖可以避免数据落地,最后再join,实现了相对于mapreduce的优化
而宽依赖由于存在shuffle(洗牌)操作,即一对多,所以无法实现 相对于mapreduce的优化
所以需要根据RDD之间的依赖关系(有向无环图):窄依赖,宽依赖关系来划分阶段(任务集合)来实现整体优化
Spark通过分析各个RDD的依赖关系生成了DAG,再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage,
具体划分方法是:
5.RDD运行过程
再总结一下RDD在Spark架构中的具体运行过程
- 创建RDD对象;
- SparkContext负责计算RDD之间的依赖关系,构建DAG;
- DAGScheduler负责把DAG图分解成多个Stage,每个Stage中包含了多个Task,每个Task会被TaskScheduler分发给各个WorkerNode上的Executor去执行。
再次感谢和推荐林子雨老师的课程: 厦门大学林子雨老师spark编程基础