前言部分:知识回顾及课程目标
[前言1]-大数据技术框架
整个大数据技术框架学习,可以划分为4个阶段:离线分析、内存分析、实时存储和实时分析。
# 第1部分、离线分析(Batch Processing)
分布式协作服务框架Zookeeper
大数据基础框架Hadoop(HDFS、MapReduce和YARN)
大数据数仓框架Hive
大数据辅助框架:FLUME、SQOOP、Oozie和Hue
# 实战项目:亿品新零售
# 第2部分、内存分析(In-Memory Processing)
Apache Spark(Environment环境、Core、SQL等),属于批处理,相比MapReduce快
将分析数据封装到数据结构:RDD(分布式集合),类似Python中列表list,调用函数处理数据
# 实战项目:一站制造项目或保险项目
# 第3部分、实时存储
基于Key-Value内存数据Redis
大数据NoSQL海量数据库HBase
分布式消息队列Kafka
# 实战案例:陌陌综合案例
# 第4部分、实时计算
Apache Flink(实时流式计算框架,天猫双十一实时大屏):Environment、DataStream和Table API & SQL
数据流封装DataStream,调用函数处理
Table API和SQL批处理和流计算
# 实战项目:车联网项目或今日指数项目
[前言2]-Aapche Spark 学习安排
Apache Spark课程学习,从4个大方面,基于Python语言编程开发(又称为
PySpark
)。
# 第1方面、Basic Environment(基础环境):
Spark 框架安装部署及开发运行,如何在本地模式和集群模式运行,使用spark-shell及PyCharm开发应用程序,测试及打包提交运行集群。
2天时间
# 第2方面、SparkCore(核心模块)
数据结构RDD,所有数据封装,分布式集合,处理数据直接调用方法(函数)
2天时间
# 第3方面、SparkSQL(交互式分析)
结构化数据处理分析,将数据封装在DataFrame,调用API或者使用SQL分析数据;
实际企业中使用最多的模块,提供丰富外部数据源
2天时间
# 第4方面、Spark in Action(实战演练)
基于Spark框架,进行海量数据分析处理,无论SQL语句还是DSL链式编程
以案例贯彻,知识巩固
1天时间
学习目标
Spark第1天,主要学习配置Spark 基础环境
框架概述、快速入门(本地模式)和Standalone 集群
1、Spark 框架概述
2、Spark 快速入门
3、Standalone 集群
Apache Spark是一种闪电般的群集计算技术,专为快速计算而设计。它基于Hadoop MapReduce,它扩展了MapReduce模型以便将其用于更多类型的计算,其中包括交互式查询和流处理。Spark的主要特点是其 内存集群计算,可提高应用程序的处理速度。
Spark是Hadoop在2009年在UC Berkeley的Matei Zaharia的AMPLab中开发的子项目之一。它是在2010年根据BSD许可开放源代码。它于2013年捐赠给Apache软件基金会,2014年2月成为顶级Apache项目。
官网:http://spark.apache.org/
01_Spark 风雨十年 [了解]
Apache Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Spark中的Job中间输出和结果可以保存在内存中,从而不再需要频繁读写磁盘,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。