大数据Spark企业级项目实战-张勇-专题视频课程

大数据Spark企业级项目实战—523人已学习
课程介绍    
201804201636531473.jpg
    本教程从基础的Spark介绍开始,介绍Spark的各种部署模式以及动手进行搭建,然后逐步介绍其中RDD的计算模型,创建和常用的操作,以及其中一些分布式计算,RDD持久化,容错,shuffle机制,共享变量等内容。 而后在RDD的基础上,讲解SparkSQL的子框架,讲解sparkstreaming的子框架,介绍DSTREAM的概念。 后以2个项目来实际带学习者到开发环境中去动手开发,调试。
课程收益
    了解Spark的特点,应用场景,RDD的计算模型, 学会动手搭建不同模式下的Spark集群,掌握RDD,掌握SparkSQL,掌握dataframe、SparkStreaming
讲师介绍
    张勇 更多讲师课程
    北风网技术总监,在某大型电信设备公司担任架构师,主要从事电信领域的软件开发,经验丰富。对电信计费系统以及核心网软件系统有深入了解,对设计高可靠性,高扩展性的软件系统具有丰富经验。
课程大纲
  第1章:spark简介
    1. spark介绍  19:31
    2. spark软件栈  26:52
    3. 动手搭建一个最简单的spark集群  15:00
    4. 运行例子程序SparkPi  11:44
  第2章:spark部署模式介绍
    1. Spark部署模式OverView1  21:37
    2. Spark部署模式OverView2  19:51
    3. Spark启动过程详解  13:19
    4. Spark集群部署之Standalone  30:50
    5. Spark集群部署之Spark on Yarn  18:29
    6. Spark集群部署之Spark on Mesos  8:26
  第3章:spark集群硬件,开发语言和java版本的选择
    1. spark集群硬件配置  31:53
    2. spark开发的语言选择  10:32
    3. Java版本的选择  6:38
  第4章:spark的rdd及其操作介绍
    1. RDD介绍及创建  16:46
    2. RDD的操作_函数传递_闭包_shuffle介绍  31:00
    3. RDD的持久化  12:02
    4. 共享变量  10:56
    5. 常用transformation和action的API介绍  18:28
    6. 在spark-shell里动手实战wordcount及常用API  31:03
  第5章:SparkSQL及DataFrame讲解
    1. SparkSQL简介  9:38
    2. SparkSQL之Dataframe介绍及创建  20:23
    3. SparkSQL之DataframeSave&Load;  12:10
    4. SparkSQL之DataframeParquet  17:47
    5. SparkSQL之DataframeJson&HiveTables;  9:16
    6. SparkSQL之DataframeJDBC&PerformanceTuning;  11:48
    7. SparkSQL实战之Dataframe创建1  18:04
    8. SparkSQL实战之Dataframe创建2  12:38
    9. SparkSQL实战之DevelopInEclipse1  12:07
    10. SparkSQL实战之DevelopInEclipse2  14:51
    11. SparkSQL实战之SparkSQL连接hive  18:10
    12. SparkSQL实战之SparkSQL之ThriftServer  14:10
  第6章:SparkStreaming和DStream介绍
    1. SparkStreaming的demo和介绍  19:48
    2. DStream和DataSource  17:13
    3. DStream的Transformation和output  17:17
    4. DStream持久化,checkpoint,以及和DataFrame的交互  8:51
    5. SparkStreaming应用的部署和监控  15:55
  第7章:SparkStreaming性能调优,容错和Kafka集成
    1. SparkStreaming的性能调优1  16:28
    2. SparkStreaming的性能调优2  7:22
    3. SparkStreaming的性能调优3  9:20
    4. SparkStreaming的容错1  17:34
    5. SparkStreaming的容错2  6:47
    6. SparkStreaming与Kafka的集成1  5:14
    7. SparkStreaming与Kafka的集成2  4:55
    8. SparkStreaming与Kafka的集成3  6:40
  第8章:SparkSQL项目实战之文本比对
    1. 开发SparkSQL应用的雏形和定义dataframe  19:07
    2. SparkSQL数据清洗  16:28
    3. SparkSQL业务逻辑的实现和保存数据处理结果  19:35
    4. SparkSQL开发SparkSQL应用调度程序,实现多文本并行  26:27
    5. SparkSQL应用的参数化,提高可配置性  6:52
    6. SparkSQL应用部署到集群中,调试  32:58
    7. SparkSQ编写简单的shell脚本,调试及查阅JIRA  28:58
    8. SparkSQL集群和SparkSQL应用参数的调整  28:46
    9. SparkSQL应用schedular模式介绍和性能调优  37:03
  第9章:SparkStreaming+ SparkSQL+Kafka 项目实战开发
    1. kafka简介,安装和集群搭建  26:32
    2. kafka实战  8:49
    3. 多组件部署模式的设计与思考  9:04
    4. SparkStreaming+kafka应用运行日志的分析  9:30
    5. 开发基于direct模式的SparkStreaming应用  17:05
    6. SparkStreaming应用的参数设置  14:49
    7. SparkStreaming应用部署调试  22:54
    8. SparkStreaming与SparkSQL结合  21:06
    9. Kafka集群升级与connect的探索  18:01
    10. 开发自定义的Kafka producer,完成整个应用  17:41
大家可以点击【 查看详情】查看我的课程
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
课程简介:  本项目课程是一门极具综合性和完整性的大型项目课程课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。 本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。  拒绝demo,拒绝宏观抽象,拒绝只讲不练,本课程高度揉和理论与实战,并兼顾各层次的学员,真正从0开始,循序渐进,每一个步骤每一个环节,都会带领学员从需求分析开始,到逻辑设计,最后落实到每一行代码,所有流程都采用企业级解决方案,并手把手带领学员一一实现,拒绝复制粘贴,拒绝demo化的实现。并且会穿插大量的原创图解,来帮助学员理解复杂逻辑,掌握关键流程,熟悉核心架构。   跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建......逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。  由于本课程不光讲解项目的实现,还会在实现过程中反复揉和各种技术细节,各种设计思想,各种最佳实践思维,学完本项目并勤于实践的话,学员的收获将远远超越一个项目的具体实现,更能对大型数据系统开发产生深刻体悟,对很多技术的应用将感觉豁然开朗,并带来融会贯通能力的巨大飞跃。当然,最直接的收获是,学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER课程模块: 1. 数据采集:涉及到埋点日志flume采集系统,sqoop业务数据抽取系统等; 2. 数据预处理:涉及到各类字典数据构建,复杂结构数据清洗解析,数据集成,数据修正,以及多渠道数据的用户身份标识打通:ID-MAPPING等;3. 数据仓库:涉及到hive数仓基础设施搭建,数仓分层体系设计,数仓分析主题设计,多维分析实现,ETL任务脚本开发,ETL任务调度,数据生命周期管理等;4. 数据治理:涉及数据资产查询管理,数据质量监控管理,atlas元数据管理系统,atlas数据血缘管理等;5. 用户画像系统:涉及画像标签体系设计,标签体系层级关系设计,各类标签计算实现,兴趣类标签的衰减合并,模型标签的机器学习算法应用及特征提取、模型训练等;6. OLAP即席分析平台:涉及OLAP平台的整体架构设计,技术选型,底层存储实现,Presto查询引擎搭建,数据服务接口开发等;7. 数据服务:涉及数据服务的整体设计理念,架构搭建,各类数据访问需求的restapi开发等;课程所涉及的技术: 整个项目课程中,将涉及到一个大型数据系统中所用到的几乎所有主要技术,具体来说,包含但不限于如下技术组件:l Hadoopl Hivel HBasel SparkCore /SparkSQL/ Spark GRAPHX / Spark Mllibl Sqoopl Azkabanl Flumel lasal Kafkal Zookeeperl Solrl Prestop
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值