课程背景:本人目前从业于数据仓库和大数据开发工作,是从零基础自学出来的。本次课程也是自己的学习心得体会,给有上进精神的伙伴提供一个指路明灯。本课程的整理花费了本人不少的时间、金钱和心血。从一个懵懵懂懂的运维工程师自学转型到数据仓库开发、大数据开发的。
目的:也是为了让致力于数据仓库开发、大数据开发的伙伴们,能够懂得珍惜这次的学习机会。
适合人员:运维工程师、JAVA研发工程师、ETL抽取工程师、数据分析师、数据挖掘工程师等。
课程纲要
学习阶段 | 课程名称 | 课程内容 |
第一阶段(基础阶段) | Linux学习 | 1. Linux操作系统介绍与安装。 2. Linux常用命令。 3. Linux常用软件安装。 4. Linux网络。 5. 防火墙。 6. Shell编程等。 |
Java 学习 |
2. 掌握多线程。 3. 掌握并发包下的队列。 4. 了解JMS。 5. 掌握JVM技术。 6. 掌握反射和动态代理。 | |
Zookeeper学习 | 1. Zookeeper分布式协调服务介绍。 2. Zookeeper集群的安装部署。 3. Zookeeper数据结构、命令。 4. Zookeeper的原理以及选举机制。 | |
数据仓库理论 |
| |
第二阶段(攻坚阶段) |
Hadoop学习 | HDFS
1. HDFS的概念和特性。 2. HDFS的shell操作。 3. HDFS的工作机制。 4. HDFS的Java应用开发。
MapReduce
1. 运行WordCount示例程序。 2. 了解MapReduce内部的运行机制。 MapReduce程序运行流程解析。 MapTask并发数的决定机制。 MapReduce中的combiner组件应用。 MapReduce中的序列化框架及应用。 MapReduce中的排序。 MapReduce中的自定义分区实现。 MapReduce的shuffle机制。 MapReduce利用数据压缩进行优化。 MapReduce程序与YARN之间的关系。 MapReduce参数优化。 3. MapReduce的Java应用开发 |
Hive学习 | 1. Hive 基本概念
Hive 应用场景。 Hive 与hadoop的关系。 Hive 与传统数据库对比。 Hive 的数据存储机制。
2. Hive 基本操作
Hive 中的DDL操作。 在Hive 中如何实现高效的JOIN查询。 Hive 的内置函数应用。 Hive shell的高级使用方式。 Hive 常用参数配置。 Hive 自定义函数和Transform的使用技巧。 Hive UDF/UDAF开发实例。
3. Hive 执行过程分析及优化策略 | |
HBase学习 |
| |
Scala学习 | 1. Scala概述。 2. Scala编译器安装。 3. Scala基础。 4. 数组、映射、元组、集合。 5. 类、对象、继承、特质。 6. 模式匹配和样例类。 7. 了解Scala Actor并发编程。 8. 理解Akka。 9. 理解Scala高阶函数。 10. 理解Scala隐式转换。 | |
Spark学习 | 1. Spark core Spark概述。 Spark集群安装。 执行第一个Spark案例程序(求PI)。
2. RDD RDD概述。 创建RDD。 RDD编程API(Transformation 和 Action Operations)。 RDD的依赖关系 RDD的缓存 DAG(有向无环图)
3. Spark SQL and DataFrame/DataSet Spark SQL概述。 DataFrames。 DataFrame常用操作。 编写Spark SQL查询程序。
4. Spark Streaming park Streaming概述。 理解DStream。 DStream相关操作(Transformations 和 Output Operations)。
5. Structured Streaming
6. 其他(MLlib and GraphX )机器学习才用 | |
Python学习 |
| |
数据仓库开发 |
| |
其它课程 | Redis课程 |
|
Memcached课程 |
| |
数据仓库工具和文档 |
|
问题答疑
- 数据仓库开发为什么和大数据开发放到一起?
回答:从目前企业的招聘需求上来看,想到成为一名数据仓库开发工程师,必须董大数据相关的知识。
例如:
数据仓库工程师任职要求:
1、有至少3年数据仓库实施及至少2年模型设计经验,本科以上学历;
2、深入理解DW,BI相关的知识,包括:ETL、数据仓库、OLAP、多维数据模型等;
3、熟悉数据仓库建模理论,以及数据仓库数据层级关系,精通多维数据模型设计,具备大型数据仓库架构设计、模型设计和处理性能调优等相关经验;
4、熟练使用主流数据模型设计工具;
5、精通SQL,能够熟练使用HiveQL和Spark SQL进行数据开发,熟悉Hive数据模型优化;
6、具有良好的团队协作精神和沟通能力,较强的逻辑思维,学习能力和解决问题的能力,可承担较大的工作压力;
7、有独立设计数据仓库经验,熟悉数据仓库相关理论知识者优先;
8、有财务数据集市开发经验者优先。
如有需要课程者:请加QQ 1843527571。
***********************************************************************END********************************************************************
如有需要者,课程地址:
————————————————————————————————————————————————————————