扫码下载「CSDN程序员学院APP」,1000+技术好课免费看
APP订阅课程,领取优惠,最少立减5元 ↓↓↓
![](https://img-blog.csdnimg.cn/20201202154019321.png)
订阅后:请点击此处观看视频课程
视频教程-大规模数据处理计算引擎Spark2.x教程(含资料)-Spark
学习有效期:永久观看
学习时长:1304分钟
学习计划:22天
难度:高
「口碑讲师带队学习,让你的问题不过夜」
![](https://img-bss.csdnimg.cn/201510161036551187.png)
讲师姓名:张长志
CTO/CIO/技术副总裁/总工程师
讲师介绍:张长志技术全才、擅长领域:区块链、大数据、Java等。10余年软件研发及企业培训经验,曾为多家大型企业提供企业内训如中石化,中国联通,中国移动等知名企业。拥有丰富的企业应用软件开发经验、深厚的软件架构设计理论基础及实践能力。项目开发历程:基于大数据技术推荐系统 ,医疗保险大数据分析与统计推断,H5跨平台APP,携程酒店APP,Go语言实现Storm和ZK类似框架。
☛点击立即跟老师学习☚
「你将学到什么?」
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。
本部分内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark RDD、Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行。本套Spark教程不仅面向项目开发人员,甚至对于研究Spark的在校学员,都是非常值得学习的。
「课程学习目录」
第1章:Spark第1天概念 |
1.01_spark定义和内置模块 |
2.02._spark的特点 |
3.03_集群角色介绍 |
4.04_local模式安装任务提交 |
5.05_流程分析 |
6.06_standalone模式集群安装和任务提交 |
7.07_历史服务器 |
8.08_standalone模式ha配置 |
9.09_client和cluster区别 |
10.10_yarn模式流程分析 |
11.11_yarn模式安装和任务提交 |
12.12_yarn日志页面跳转 |
13.13_wordcount案例打包上传到集群运行 |
14.14_程序debug |
第2章:Spark第2天RDD |
1.01_回顾 |
2.02_rdd的定义 |
3.03_rdd的属性 |
4.04_rdd的特点 |
5.05_rdd创建的三种方式 |
6.06_rdd两种创建方式的默认分区 |
7.07_rdd默认分区看源码 |
8.08_分区源码1 |
9.08_上午回顾2 |
10.09_rdd转换操作1-4 |
11.10_rdd转换5-9 |
12.11_rdd转换10-15 |
第3章:Spark第3天kv转换案例 |
1.01_回顾 |
2.02_kv转换1-2 |
3.03_kv转换3-5 |
4.04_kv转换6-8 |
5.05_combineByKey |
6.06_kv转换8-11以及案例 |
7.07_action算子 |
8.08_函数传递 |
9.09_lineage |
10.10_stage划分 |
11.11._cache和checkpoint |
第4章:Spark第4天SparkCore |
1.01 - SparkCore - RDD简单回顾 |
2.02 - SparkCore - 自定义分区器 |
3.03 - SparkCore - 文件的读取和存储 |
4.04 - SparkCore -MySQL数据的读取 |
5.05 - foreachPartition算子使用 |
6.06 - SparkCore-Hbase的读取和插入 |
7.07 - SparkCore - 累加器 |
第5章:Spark第5天SparkSQL |
1.08 - SparkCore - 累加器回顾 |
2.09 - SparkCore - 广播变量 |
3.10 - SparkCore - rdd总结 |
4.11 - DataFrame -DataSet 介绍 |
5.12 - SparkSQL - 简单操作演示 |
6.13 - RDD,DF,DS之间的转换操作 |
7.14 - RDD,DF,DS之间的共性和区别 |
8.15 - Java开发SparkSQL |
第6章:Spark第6天SparkStreaming |
1.16 - 用户自定义聚合函数(强类型 & 弱类型) |
2.17 -SparkSQL通用读取数据和保存数据 |
3.18 - SparkSQL操作Hive |
4.19 -SparkSQL实战简介 |
5.20 - SparkStreaming - 简单介绍 |
6.21 - Spark流 - WordCount |
7.22 - 多种方式采集数据(文件夹 & kafka) |
8.23 - Spark流 - 自定义数据采集器 |
9.24 - Spark流 - 有状态数据操作 |
10.25 - SparkStreaming - 窗口函数 |
「7项超值权益,保障学习质量」
- 大咖讲解
技术专家系统讲解传授编程思路与实战。
- 答疑服务
专属社群随时沟通与讲师答疑,扫清学习障碍,自学编程不再难。
- 课程资料+课件
超实用资料,覆盖核心知识,关键编程技能,方便练习巩固。(部分讲师考虑到版权问题,暂未上传附件,敬请谅解)
- 常用开发实战
企业常见开发实战案例,带你掌握Python在工作中的不同运用场景。
- 大牛技术大会视频
2019Python开发者大会视频免费观看,送你一个近距离感受互联网大佬的机会。
- APP+PC随时随地学习
满足不同场景,开发编程语言系统学习需求,不受空间、地域限制。
「什么样的技术人适合学习?」
- 想进入互联网技术行业,但是面对多门编程语言不知如何选择,0基础的你
- 掌握开发、编程技术单一、冷门,迫切希望能够转型的你
- 想进入大厂,但是编程经验不够丰富,没有竞争力,程序员找工作难。
「悉心打造精品好课,22天学到大牛3年项目经验」
【完善的技术体系】
技术成长循序渐进,帮助用户轻松掌握
掌握Spark知识,扎实编码能力
【清晰的课程脉络】
浓缩大牛多年经验,全方位构建出系统化的技术知识脉络,同时注重实战操作。
【仿佛在大厂实习般的课程设计】
课程内容全面提升技术能力,系统学习大厂技术方法论,可复用在日后工作中。
「你可以收获什么?」
1.掌握Spark生态系统的概述及其编程模型
2.掌握Spark生态的原理和技术综合应用
3.能应用Spark进行企业级的开发和平台搭建