大数据、云计算系统架构师顶级课程
阶段一、大数据、云计算 - Hadoop大数据开发技术
课程一、大数据运维之Linux基础
本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。因为企业
中的项目基本上都是使用Linux环境下搭建或部署的。
1)Linux系统概述 |
6)用户和用户组管理 |
课程二、大数据开发核心技术 - Hadoop 2.x从入门到精通
本课程是整套大数据课程的基石:其一,分布式文件系统HDFS用于存储海量数据,无论是Hive、HBase或者Spark数据存储在其上面;其二是分布式资源管理框架
YARN,是Hadoop 云操作系统(也称数据系统),管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控;分布式并行计算框架
MapReduce目前是海量数据并行处理的一个最常用的框架。Hadoop 2.x的编译、环境搭建、HDFS Shell使用,YARN 集群资源管理与任务监控,MapReduce编
程,分布式集群的部署管理(包括高可用性HA)必须要掌握的。
【大数据开发学习资料领取方式】:加入大数据技术学习交流群458345782,点击加入群聊,私信管理员即可免费领取
一、初识Hadoop 2.x 1)大数据应用发展、前景 |
二、深入Hadoop 2.x 1)HDFS文件系统的架构、功能、设计 |
三、高级Hadoop 2.x 1)分布式部署Hadoop 2.x |
四、实战应用 1)以【北风网用户浏览日志】数据进行实际的分析 2)原数据采集 3)数据的预处理(ETL) 4)数据的分析处理(MapReduce) |
课程三、大数据开发核心技术 - 大数据仓库Hive精讲
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行
运行。其优点是学习成本低,可以通类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
一、Hive 初识入门 1)Hive功能、体系结构、使用场景 |
二、Hive深入使用 1)Hive中的内部表、外部表、分区表 |
三、Hive高级进阶 1)Hive数据的存储和压缩 |
四、结合【北风网用户浏览日志】实际案例分析 1)依据业务设计表 |
课程四、大数据协作框架 - Sqoop/Flume/Oozie精讲
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL
,Oracle ,Postgres等)中的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部
署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
一、数据转换工具Sqoop 1)Sqoop功能、使用原则 |
二、文件收集框架Flume 1)Flume 设计架构、原理(三大组件) |
三、Oozie功能、安装部署 1)使用Oozie调度MapReduce Job和HiveQL |
课程五、大数据Web开发框架 - 大数据WEB 工具Hue精讲
Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通
过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。
1)Hue架构、功能、编译 |
4)Hue集成Hive、DataBase |
课程六、大数据核心开发技术 - 分布式数据库HBase从入门到精通
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase在
Hadoop之上提供了类似于Bigtable的能力,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大
规模结构化存储集群
一、HBase初窥使用 1)HBase是什么、发展、与RDBMS相比优势、企业使用 |
二、HBase 深入使用 1)HBase 数据存储模型 |
三、HBase 高级使用 1)如何设计表、表的预分区(依据具体业务分析讲解) |
四、【北风网用户浏览日志】进 |