- 了解什么是Spark
- 了解Spark的特点
- 搭建Spark集群
- 了解Spark的角色介绍
- 体验第一个Spark程序
- 编写Spark应用
- 掌握RDD弹性分布式数据集
- 掌握RDD常用的算子操作
- 掌握Spark的任务调度流程
1、Spark概述
1.1、什么是Spark?
官网:http://spark.apache.org/
1.2、为什么要学Spark?
- Spark 是一个开源的类似于Hadoop MapReduce 的通用的并行计算框架,Spark基于MapReduce 算法实现的分布式计算,拥有Hadoop MapReduce 所具有的优点;
- 但不同于MapReduce 的是Spark 中的Job 中间输出和结果可以保存在内存中,从而不再需要读写 HDFS,因此Spark 能更好地适用于数据挖掘与机器学习等需要迭代的map reduce 的算法。
- Spark 是MapReduce 的替代方案,而且兼容HDFS、Hive,可融入Hadoop 的生态系统,以弥补 MapReduce 的不足。
1.3、Spark的特点
1.3.1、