文章目录
- 课程大纲
- 模块一:大数据的“三驾马车”:HDFS、MapReduce/YARN、HBase
- 模块二:大数据时代数据仓库实践:Hive
- 模块三:更快的数据处理引擎:Spark
- 模块四:重构现代化数据仓库:Spark SQL
- 模块五:OLAP 之争:Presto、Kylin、ClickHouse
- 模块七:数据开发体系:ETL、Data Visualization
- 模块九:Hadoop、Spark 核心源码讲解
- 模块十:面试通关:如何成为卓越的大数据开发工程师
- 实战项目
- 项目一:Hadoop 集群云主机搭建和健康管理
- 项目二:数据可视化和交互式自助分析平台建设
- 项目三:利用 Spark 对大型电商用户数据进行分析
- 项目四:Hadoop、Spark 源码学习
课程大纲
模块一:大数据的“三驾马车”:HDFS、MapReduce/YARN、HBase
教学目标:
Hadoop 是大数据平台体系的基石,本模块通过对 Hadoop 生态“三驾马车”的学习,带你:
- 从存储、计算角度掌握分布式系统框架;
- 掌握如何搭建、管理、使用和监控集群;
- 了解如何高效地解决大数据问题;
- 通过学习 HDFS、MapReduce、YARN 的优秀设计和源码,掌握如何设计和实现一个分布式系统。
学习和工作中的痛点:
- 对 Hadoop 技术生态理解不深,不知道哪些场景会出现问题,也不知道如何避坑、如何优化系统;
- 水平停留在使用层面,没有能力设计和实现出稳定的分布式系统;
- Hadoop 生态体系复杂,涉及的组件多,代码量大,学习无从下手;
- 自学效率低,看过的知识容易忘,理解不深,也没法直击重点,做到学以致用。
通过学习掌握的核心能力:
- 全面了解大数据数据处理的框架和模型;
- 对 HDFS、MapReduce、YARN 的架构进行系统学习,了解块存储、读写分离、调度器、有限状态自动机、WAL 等技术原理;
- 学习 HDFS 和 YARN 的体系架构,HA 模型,Federation 架构等;
- 掌握对 Hadoop 进行 trouble-shooting 的思路和技巧,了解如何选用适合的架构,如何监控和管理平台;
- 掌握分布式系统的设计原理,通过学习 Hadoop 的优秀源码,设计和实现自己的分布式系统;
- 学完能够胜任 Hadoop 大数据平台工程师和运维工程师角色。
详细内容:导入型课程(2 课时)+ 13 课时
- Hadoop 发展历程和生态体系概述;
- 分布式文件系统 HDFS 概述,包括其功能、作用、优势、应用现状和发展趋势等;
- 详解 HDFS 的核心关键技术、设计精髓以及基本工作原理,包括系统架构、文件存储模式、存储扩容与吞吐性能扩展等;
- 数据并行技术 MapReduce 概述,并详解其工作机制、底层原理、性能调优技巧等;
- 大数据平台中的并行计算处理思路与函数式编程技术原理解析;
- MapReduce 并行处理平台的系统架构、核心功能模块、MapReduce 编程应用开发实践;
- 学习资源调度器 YARN 的架构和多种调度算法;
- 讲解 YARN 的容灾机制、多租户模型等;
- 案例:以某公司大数据平台为例,分享 PB 级别容量集群的实际配置方案,并给出集群机房实际部署拓扑推荐。
模块二:大数据时代数据仓库实践:Hive
教学目标:
Hive 已经成为大数据体系下数据仓库的标准,也已经成为各大互联网公司数据仓库建设的必选方案,
本模块将带你:
- 重学 Hive 的基础与背后原理;
- 深入解析 Hive 的使用方式;
- 掌握 HQL 语法以及常用的仓库模式设计;
- 掌握 Hive 优化方法;
- 了解 Hive 的高级特性和未来的发展趋势;
- 通过案例实践巩固学习内容。
学习和工作中的痛点:
- 业务方只会写 SQL,但不知晓 SQL 底层实现细节,无法写出高效的 SQL;
- 平台方看不懂 SQL,无法帮助业务进行 SQL 优化,导致平台资源浪费;
- SQL 报错看不懂,跑的慢只会甩锅资源不足,无法找出根本原因。
通过学习掌握的核心能力:
- 掌握 Hive 的基本原理;
- 掌握 Hive 的基本使用;
- 掌握 HiveQL 的基本语法和常用优化措施;
- 了解 Hive 数据仓库设计的方法能够胜任大多数互联网场景下的大数据分析和数据开发任务。
详细内容:10 课时
- Hive 的版本演进与目前现状,Hive 的安装部署,HiveServer 与 JDBC/ODBC,Hive 的基本架构;
- Hive 支持的基本数据类型,Hive 支持的文件格式与优劣对比,Hive 的常用模式设计;
- HiveQL 的数据定义、数据操作和数据查询(Select/Where/Group By/Join/OrderBy/SortBy/Cl By/Join/OrderBy/SortBy/ClusterBy/DistributeBy);
- Hive 调优,Explain 查看执行计划,控制 Map/Reduce 数;
- Hive 推测执行机制,Join 优化策略,数据倾斜问题的通用解决,动态分区优化;
- 案例:通过广告用户行为分析实践,融汇贯通本模块所学内容。
模块三:更快的数据处理引擎:Spark
教学目标:
Spark 作为新一代的大数据处理引擎,是众多互联网公司进行离线数据处理的首选,它同时也被广泛应用在实时计算、机器学习等领域,本模块将带你:
- 了解和掌握 Spark 基础概念和底层原理;
- 掌握 Spark 实战技巧,能

本课程全面覆盖大数据核心技术,包括Hadoop三驾马车、Hive、Spark、数据仓库实战、源码分析及面试指导。通过学习,你将掌握分布式系统、数据处理引擎、数据仓库设计、性能优化等,完成从搭建集群到解决实际问题的全方位提升,为成为卓越大数据开发工程师奠定坚实基础。
最低0.47元/天 解锁文章
756

被折叠的 条评论
为什么被折叠?



