文章来源:http://www.dataguru.cn/forum.php?mod=viewthread&tid=316241
为了广大学员更好的学习spark,对《Spark大数据快速计算平台》最初课程重新安排,便于更全面、更系统的了解spark。
大部分课程是一周的内容(1-2小时),有部分课程是二周的内容(2-4小时);
二周内容的课程会一次性发放,但间隔时间会多一周,总的课程历程大概是15周。另外会做个调查表,适当添加辅助课程。
课程内容:
1:Spark生态和安装部署(一周内容)
什么是Spark
Spark有什么
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(Machine Learning)
GraphX(bagel将被取代)
安装部署
Spark安装简介
Spark的源码编译
Spark Standalone安装
Spark Standalone HA安装
Spark工具
Spark交互式工具spark-shell
Spark应用程序部署工具spark-submit
2:Spark编程模型和解析(一周内容)
Spark的编程模型
RDD的特点、操作、依赖关系
缓存策略
广播变量和累加器
Spark编程环境搭建
Spark编程实例解析
WordCount
日志处理
3:Spark运行架构和解析(一周内容)
Spark的运行架构
基本术语
运行架构(DAGScheduler、TaskSeduler、Task、容错性、推测机制、数据本地性)
Spark on Standalone运行过程
Spark on YARN 运行过程
Spark运行实例解析
Spark on Standalone实例解析
Spark on YARN实例解析
4:Spark SQL原理和实践(二周内容)
hive和shark
hive的原理、安装、运行
shark的原理、安装、运行
Spark SQL原理
Spark SQL的Catalyst优化器
Spark SQL编程模型
Spark SQL和Hive
Spark SQL的实例和编程
Spark SQL的实例操作
Spark SQL的编程
5:Spark Streaming原理和实践(一周内容)
Spark Streaming原理
Spark流式处理架构
DStream的特点
Dstream的操作和RDD的区别
Spark Streaming的优化
Spark Streaming实例
文本实例
Window操作
网络数据处理
6:Spark 机器学习入门(一周内容)
机器学习的原理
Mllib常用算法简介
Mllib的例程分析
7:GraphX 入门(一周内容)
图论基础
GraphX的简介
GraphX例程分析
8:Spark运维和调优(二周内容)
Spark配置
history server
job server
Spark的监控
Spark UI监控
Ganglia 监控
Spark调优
9:Spark编程(二周内容)
Spark的多语言编程
Scala开发Spark应用程序
Pyhton开发Spark应用程序
Spark的应用开发
Spark和Nosql(redis、mongodb)
Spark和RDBMS(mysql)
Spark和Hbase
10:Spark源码研读(二周内容)
Spark源码研读
Spark源码下载和研读环境搭建
Spark Core介绍
SparkContext
Executor
Deploy
RDD和Storage
Scheduler和Task
Spark Examples介绍
11:杂谈(一周内容)
基于Spark的衍生项目
BlinkDB简介
SparkR的安装和实例
Spark和MapReduce、Tez
Spark和Techyon
Spark的优秀网站、书籍、牛人介绍
授课对象:
具有ubuntu或CentOS操作技能,最好有hadoop2.x基础,想了解和学习Spark的朋友
授课软件版本:
spark1.0.0
hadoop2.2.0
IntelliJ IDEA 13+
Java 7UP21
scala 2.10.4
python 2.7
学习环境准备:
最好有多台大内存的物理机,实在不行,就拿台16G内存以上的物理机吧。Spark很耗内存的,小伙伴们都知道的。最低的配置不要低于4G(用伪分布式小数据量下还能凑合着使用)。
授课时间:
开课时间2014年7月7日,课程持续时间为11周。
开课前将预放附带课程视频 spark课程简介 、 hadoop2.2.0环境搭建 、IntelliJ IDEA环境搭建
学习收获预期:
掌握Spark编程原理和运行结构,Spark生态的各个组件的功能,具备初步从事Spark项目的能力。