大数据训练营课程大纲&项目简介

最新推荐文章于 2023-05-10 11:26:50 发布

原创

最新推荐文章于 2023-05-10 11:26:50 发布 · 5.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本课程全面覆盖大数据核心技术，包括Hadoop三驾马车、Hive、Spark、数据仓库实战、源码分析及面试指导。通过学习，你将掌握分布式系统、数据处理引擎、数据仓库设计、性能优化等，完成从搭建集群到解决实际问题的全方位提升，为成为卓越大数据开发工程师奠定坚实基础。

文章目录

课程大纲
模块一：大数据的“三驾马车”：HDFS、MapReduce/YARN、HBase
模块二：大数据时代数据仓库实践：Hive
模块三：更快的数据处理引擎：Spark
模块四：重构现代化数据仓库：Spark SQL
模块五：OLAP 之争：Presto、Kylin、ClickHouse
模块七：数据开发体系：ETL、Data Visualization
模块九：Hadoop、Spark 核心源码讲解
模块十：面试通关：如何成为卓越的大数据开发工程师
实战项目
项目一：Hadoop 集群云主机搭建和健康管理
项目二：数据可视化和交互式自助分析平台建设
项目三：利用 Spark 对大型电商用户数据进行分析
项目四：Hadoop、Spark 源码学习

课程大纲

模块一：大数据的“三驾马车”：HDFS、MapReduce/YARN、HBase

教学目标：
Hadoop 是大数据平台体系的基石，本模块通过对 Hadoop 生态“三驾马车”的学习，带你：

从存储、计算角度掌握分布式系统框架；
掌握如何搭建、管理、使用和监控集群；
了解如何高效地解决大数据问题；
通过学习 HDFS、MapReduce、YARN 的优秀设计和源码，掌握如何设计和实现一个分布式系统。

学习和工作中的痛点：

对 Hadoop 技术生态理解不深，不知道哪些场景会出现问题，也不知道如何避坑、如何优化系统；
水平停留在使用层面，没有能力设计和实现出稳定的分布式系统；
Hadoop 生态体系复杂，涉及的组件多，代码量大，学习无从下手；
自学效率低，看过的知识容易忘，理解不深，也没法直击重点，做到学以致用。

通过学习掌握的核心能力：

全面了解大数据数据处理的框架和模型；
对 HDFS、MapReduce、YARN 的架构进行系统学习，了解块存储、读写分离、调度器、有限状态自动机、WAL 等技术原理；
学习 HDFS 和 YARN 的体系架构，HA 模型，Federation 架构等；
掌握对 Hadoop 进行 trouble-shooting 的思路和技巧，了解如何选用适合的架构，如何监控和管理平台;
掌握分布式系统的设计原理，通过学习 Hadoop 的优秀源码，设计和实现自己的分布式系统；
学完能够胜任 Hadoop 大数据平台工程师和运维工程师角色。

详细内容：导入型课程（2 课时）+ 13 课时

Hadoop 发展历程和生态体系概述；
分布式文件系统 HDFS 概述，包括其功能、作用、优势、应用现状和发展趋势等；
详解 HDFS 的核心关键技术、设计精髓以及基本工作原理，包括系统架构、文件存储模式、存储扩容与吞吐性能扩展等；
数据并行技术 MapReduce 概述，并详解其工作机制、底层原理、性能调优技巧等；
大数据平台中的并行计算处理思路与函数式编程技术原理解析；
MapReduce 并行处理平台的系统架构、核心功能模块、MapReduce 编程应用开发实践；
学习资源调度器 YARN 的架构和多种调度算法；
讲解 YARN 的容灾机制、多租户模型等；
案例：以某公司大数据平台为例，分享 PB 级别容量集群的实际配置方案，并给出集群机房实际部署拓扑推荐。

模块二：大数据时代数据仓库实践：Hive

教学目标：
Hive 已经成为大数据体系下数据仓库的标准，也已经成为各大互联网公司数据仓库建设的必选方案，
本模块将带你：

重学 Hive 的基础与背后原理；
深入解析 Hive 的使用方式；
掌握 HQL 语法以及常用的仓库模式设计；
掌握 Hive 优化方法；
了解 Hive 的高级特性和未来的发展趋势；
通过案例实践巩固学习内容。

学习和工作中的痛点：

业务方只会写 SQL，但不知晓 SQL 底层实现细节，无法写出高效的 SQL；
平台方看不懂 SQL，无法帮助业务进行 SQL 优化，导致平台资源浪费；
SQL 报错看不懂，跑的慢只会甩锅资源不足，无法找出根本原因。

通过学习掌握的核心能力：

掌握 Hive 的基本原理；
掌握 Hive 的基本使用；
掌握 HiveQL 的基本语法和常用优化措施；
了解 Hive 数据仓库设计的方法能够胜任大多数互联网场景下的大数据分析和数据开发任务。

详细内容：10 课时

Hive 的版本演进与目前现状，Hive 的安装部署，HiveServer 与 JDBC/ODBC，Hive 的基本架构；
Hive 支持的基本数据类型，Hive 支持的文件格式与优劣对比，Hive 的常用模式设计；
HiveQL 的数据定义、数据操作和数据查询（Select/Where/Group By/Join/OrderBy/SortBy/Cl By/Join/OrderBy/SortBy/ClusterBy/DistributeBy)；
Hive 调优，Explain 查看执行计划，控制 Map/Reduce 数；
Hive 推测执行机制，Join 优化策略，数据倾斜问题的通用解决，动态分区优化；
案例：通过广告用户行为分析实践，融汇贯通本模块所学内容。

模块三：更快的数据处理引擎：Spark

教学目标：
Spark 作为新一代的大数据处理引擎，是众多互联网公司进行离线数据处理的首选，它同时也被广泛应用在实时计算、机器学习等领域，本模块将带你：

了解和掌握 Spark 基础概念和底层原理；
掌握 Spark 实战技巧，能

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。