[大数据]-- 大数据spark学习课程安排

这是一份详细的大数据Spark学习课程安排,涵盖了Spark生态、编程模型、运行架构、SQL、Streaming、机器学习、GraphX以及运维调优等核心内容。课程适合有Ubuntu或CentOS操作基础,了解Hadoop2.x的学员,通过学习,可以掌握Spark的编程原理、运行结构和组件功能,为从事Spark项目打下基础。
摘要由CSDN通过智能技术生成

文章来源:http://www.dataguru.cn/forum.php?mod=viewthread&tid=316241

为了广大学员更好的学习spark,对《Spark大数据快速计算平台》最初课程重新安排,便于更全面、更系统的了解spark。

大部分课程是一周的内容(1-2小时),有部分课程是二周的内容(2-4小时);

二周内容的课程会一次性发放,但间隔时间会多一周,总的课程历程大概是15周。另外会做个调查表,适当添加辅助课程。


课程内容:
1:Spark生态和安装部署(一周内容)
什么是Spark
Spark有什么
  Spark(内存计算框架)
  SparkSteaming(流式计算框架)
  Spark SQL(ad-hoc)
  Mllib(Machine Learning)
  GraphX(bagel将被取代)
安装部署
  Spark安装简介
  Spark的源码编译
  Spark Standalone安装
  Spark Standalone HA安装  
Spark工具
  Spark交互式工具spark-shell
  Spark应用程序部署工具spark-submit

2:Spark编程模型和解析(一周内容)
Spark的编程模型  
  RDD的特点、操作、依赖关系
  缓存策略
  广播变量和累加器
Spark编程环境搭建
Spark编程实例解析
  WordCount
  日志处理

3:Spark运行架构和解析(一周内容)
Spark的运行架构
  基本术语
  运行架构(DAGScheduler、TaskSeduler、Task、容错性、推测机制、数据本地性)
  Spark on Standalone运行过程
  Spark on YARN 运行过程
Spark运行实例解析
  Spark on Standalone实例解析
  Spark on YARN实例解析

4:Spark SQL原理和实践(二周内容)
hive和shark
  hive的原理、安装、运行
  shark的原理、安装、运行
Spark SQL原理
  Spark SQL的Catalyst优化器
  Spark SQL编程模型
  Spark SQL和Hive
Spark SQL的实例和编程
  Spark SQL的实例操作
  Spark SQL的编程

5:Spark Streaming原理和实践(一周内容)
Spark Streaming原理
  Spark流式处理架构
  DStream的特点
  Dstream的操作和RDD的区别
  Spark Streaming的优化
Spark Streaming实例
  文本实例
  Window操作
  网络数据处理

6:Spark 机器学习入门(一周内容)
机器学习的原理
Mllib常用算法简介
Mllib的例程分析

7:GraphX 入门(一周内容)
图论基础
GraphX的简介
GraphX例程分析

8:Spark运维和调优(二周内容)
Spark配置
history server
job server
Spark的监控
  Spark UI监控
  Ganglia 监控
Spark调优

9:Spark编程(二周内容)
Spark的多语言编程
  Scala开发Spark应用程序
  Pyhton开发Spark应用程序
Spark的应用开发
  Spark和Nosql(redis、mongodb)
  Spark和RDBMS(mysql)
  Spark和Hbase

10:Spark源码研读(二周内容)
Spark源码研读
  Spark源码下载和研读环境搭建
Spark Core介绍
  SparkContext
  Executor
  Deploy
  RDD和Storage
  Scheduler和Task
Spark Examples介绍

11:杂谈(一周内容)
基于Spark的衍生项目
  BlinkDB简介
  SparkR的安装和实例
Spark和MapReduce、Tez
Spark和Techyon
Spark的优秀网站、书籍、牛人介绍

授课对象:
具有ubuntu或CentOS操作技能,最好有hadoop2.x基础,想了解和学习Spark的朋友

授课软件版本:
spark1.0.0
hadoop2.2.0
IntelliJ IDEA 13+
Java 7UP21
scala 2.10.4
python 2.7

学习环境准备:
最好有多台大内存的物理机,实在不行,就拿台16G内存以上的物理机吧。Spark很耗内存的,小伙伴们都知道的。最低的配置不要低于4G(用伪分布式小数据量下还能凑合着使用)。

授课时间:
开课时间2014年7月7日,课程持续时间为11周。
开课前将预放附带课程视频 spark课程简介 、 hadoop2.2.0环境搭建 、IntelliJ IDEA环境搭建

学习收获预期:
掌握Spark编程原理和运行结构,Spark生态的各个组件的功能,具备初步从事Spark项目的能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值