视频教程-大规模数据处理计算引擎Spark2.x教程(含资料)-Spark

扫码下载「CSDN程序员学院APP」,1000+技术好课免费看

APP订阅课程,领取优惠,最少立减5元 ↓↓↓

订阅后:请点击此处观看视频课程

 

视频教程-大规模数据处理计算引擎Spark2.x教程(含资料)-Spark

学习有效期:永久观看

学习时长:1304分钟

学习计划:22天

难度:

 

口碑讲师带队学习,让你的问题不过夜」

讲师姓名:张长志

CTO/CIO/技术副总裁/总工程师

讲师介绍:张长志技术全才、擅长领域:区块链、大数据、Java等。10余年软件研发及企业培训经验,曾为多家大型企业提供企业内训如中石化,中国联通,中国移动等知名企业。拥有丰富的企业应用软件开发经验、深厚的软件架构设计理论基础及实践能力。项目开发历程:基于大数据技术推荐系统 ,医疗保险大数据分析与统计推断,H5跨平台APP,携程酒店APP,Go语言实现Storm和ZK类似框架。

☛点击立即跟老师学习☚

 

「你将学到什么?」

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。


Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。


Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。


尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。


本部分内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark RDD、Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行。本套Spark教程不仅面向项目开发人员,甚至对于研究Spark的在校学员,都是非常值得学习的。

 

「课程学习目录」

第1章:Spark第1天概念
1.01_spark定义和内置模块
2.02._spark的特点
3.03_集群角色介绍
4.04_local模式安装任务提交
5.05_流程分析
6.06_standalone模式集群安装和任务提交
7.07_历史服务器
8.08_standalone模式ha配置
9.09_client和cluster区别
10.10_yarn模式流程分析
11.11_yarn模式安装和任务提交
12.12_yarn日志页面跳转
13.13_wordcount案例打包上传到集群运行
14.14_程序debug
第2章:Spark第2天RDD
1.01_回顾
2.02_rdd的定义
3.03_rdd的属性
4.04_rdd的特点
5.05_rdd创建的三种方式
6.06_rdd两种创建方式的默认分区
7.07_rdd默认分区看源码
8.08_分区源码1
9.08_上午回顾2
10.09_rdd转换操作1-4
11.10_rdd转换5-9
12.11_rdd转换10-15
第3章:Spark第3天kv转换案例
1.01_回顾
2.02_kv转换1-2
3.03_kv转换3-5
4.04_kv转换6-8
5.05_combineByKey
6.06_kv转换8-11以及案例
7.07_action算子
8.08_函数传递
9.09_lineage
10.10_stage划分
11.11._cache和checkpoint
第4章:Spark第4天SparkCore
1.01 - SparkCore - RDD简单回顾
2.02 - SparkCore - 自定义分区器
3.03 - SparkCore - 文件的读取和存储
4.04 - SparkCore -MySQL数据的读取
5.05 - foreachPartition算子使用
6.06 - SparkCore-Hbase的读取和插入
7.07 - SparkCore - 累加器
第5章:Spark第5天SparkSQL
1.08 - SparkCore - 累加器回顾
2.09 - SparkCore - 广播变量
3.10 - SparkCore - rdd总结
4.11 - DataFrame -DataSet 介绍
5.12 - SparkSQL - 简单操作演示
6.13 - RDD,DF,DS之间的转换操作
7.14 - RDD,DF,DS之间的共性和区别
8.15 - Java开发SparkSQL
第6章:Spark第6天SparkStreaming
1.16 - 用户自定义聚合函数(强类型 & 弱类型)
2.17 -SparkSQL通用读取数据和保存数据
3.18 - SparkSQL操作Hive
4.19 -SparkSQL实战简介
5.20 - SparkStreaming - 简单介绍
6.21 - Spark流 - WordCount
7.22 - 多种方式采集数据(文件夹 & kafka)
8.23 - Spark流 - 自定义数据采集器
9.24 - Spark流 - 有状态数据操作
10.25 - SparkStreaming - 窗口函数

 

7项超值权益,保障学习质量」

  • 大咖讲解

技术专家系统讲解传授编程思路与实战。

  • 答疑服务

专属社群随时沟通与讲师答疑,扫清学习障碍,自学编程不再难。

  • 课程资料+课件

超实用资料,覆盖核心知识,关键编程技能,方便练习巩固。(部分讲师考虑到版权问题,暂未上传附件,敬请谅解)

  • 常用开发实战

企业常见开发实战案例,带你掌握Python在工作中的不同运用场景。

  • 大牛技术大会视频

2019Python开发者大会视频免费观看,送你一个近距离感受互联网大佬的机会。

  • APP+PC随时随地学习

满足不同场景,开发编程语言系统学习需求,不受空间、地域限制。

 

「什么样的技术人适合学习?」

  • 想进入互联网技术行业,但是面对多门编程语言不知如何选择,0基础的你
  • 掌握开发、编程技术单一、冷门,迫切希望能够转型的你
  • 想进入大厂,但是编程经验不够丰富,没有竞争力,程序员找工作难。

 

「悉心打造精品好课,22天学到大牛3年项目经验」

【完善的技术体系】

技术成长循序渐进,帮助用户轻松掌握

掌握Spark知识,扎实编码能力

【清晰的课程脉络】

浓缩大牛多年经验,全方位构建出系统化的技术知识脉络,同时注重实战操作。

【仿佛在大厂实习般的课程设计】

课程内容全面提升技术能力,系统学习大厂技术方法论,可复用在日后工作中。

 

「你可以收获什么?」

1.掌握Spark生态系统的概述及其编程模型

2.掌握Spark生态的原理和技术综合应用

3.能应用Spark进行企业级的开发和平台搭建

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。本部分内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark RDD、Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行。本套Spark教程不仅面向项目开发人员,甚至对于研究Spark的在校学员,都是非常值得学习的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值