数据仓库大数据开发学习的心路历程

最新推荐文章于 2024-08-22 07:30:00 发布

张陈亚

最新推荐文章于 2024-08-22 07:30:00 发布

阅读量9.6k

点赞数 10

分类专栏： Hadoop Java Oracle SPARK HASE

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42163563/article/details/81943758

版权

Oracle 同时被 3 个专栏收录

29 篇文章 1 订阅

订阅专栏

8 篇文章 1 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

课程背景：本人目前从业于数据仓库和大数据开发工作，是从零基础自学出来的。本次课程也是自己的学习心得体会，给有上进精神的伙伴提供一个指路明灯。本课程的整理花费了本人不少的时间、金钱和心血。从一个懵懵懂懂的运维工程师自学转型到数据仓库开发、大数据开发的。

目的：也是为了让致力于数据仓库开发、大数据开发的伙伴们，能够懂得珍惜这次的学习机会。

适合人员：运维工程师、JAVA研发工程师、ETL抽取工程师、数据分析师、数据挖掘工程师等。

课程纲要

学习阶段

课程名称

课程内容

第一阶段（基础阶段）

Linux学习

1. Linux操作系统介绍与安装。

2. Linux常用命令。

3. Linux常用软件安装。

4. Linux网络。

5. 防火墙。

6. Shell编程等。

Java 学习

JAVA基础:java简介、字符串、数组等

2. 掌握多线程。

3. 掌握并发包下的队列。

4. 了解JMS。

5. 掌握JVM技术。

6. 掌握反射和动态代理。

Zookeeper学习

1. Zookeeper分布式协调服务介绍。

2. Zookeeper集群的安装部署。

3. Zookeeper数据结构、命令。

4. Zookeeper的原理以及选举机制。

数据仓库理论

数据仓库入门课程。
数据仓库讲解。
PowerDesigner数据仓库设计视频课程。
真实电商数据仓库全流程开发讲解。

第二阶段（攻坚阶段）

Hadoop学习

HDFS

1. HDFS的概念和特性。

2. HDFS的shell操作。

3. HDFS的工作机制。

4. HDFS的Java应用开发。

MapReduce

1. 运行WordCount示例程序。

2. 了解MapReduce内部的运行机制。

MapReduce程序运行流程解析。

MapTask并发数的决定机制。

MapReduce中的combiner组件应用。

MapReduce中的序列化框架及应用。

MapReduce中的排序。

MapReduce中的自定义分区实现。

MapReduce的shuffle机制。

MapReduce利用数据压缩进行优化。

MapReduce程序与YARN之间的关系。

MapReduce参数优化。

3. MapReduce的Java应用开发

Hive学习

1. Hive 基本概念

Hive 应用场景。

Hive 与hadoop的关系。

Hive 与传统数据库对比。

Hive 的数据存储机制。

2. Hive 基本操作

Hive 中的DDL操作。

在Hive 中如何实现高效的JOIN查询。

Hive 的内置函数应用。

Hive shell的高级使用方式。

Hive 常用参数配置。

Hive 自定义函数和Transform的使用技巧。

Hive UDF/UDAF开发实例。

3. Hive 执行过程分析及优化策略

HBase学习

hbase简介。
habse安装。
hbase数据模型。
hbase命令。
hbase开发。
hbase原理。

Scala学习

1. Scala概述。

2. Scala编译器安装。

3. Scala基础。

4. 数组、映射、元组、集合。

5. 类、对象、继承、特质。

6. 模式匹配和样例类。

7. 了解Scala Actor并发编程。

8. 理解Akka。

9. 理解Scala高阶函数。

10. 理解Scala隐式转换。

Spark学习

1. Spark core

Spark概述。

Spark集群安装。

执行第一个Spark案例程序（求PI）。

2. RDD

RDD概述。

创建RDD。

RDD编程API（Transformation 和 Action Operations）。

RDD的依赖关系

RDD的缓存

DAG（有向无环图）

3. Spark SQL and DataFrame/DataSet

Spark SQL概述。

DataFrames。

DataFrame常用操作。

编写Spark SQL查询程序。

4. Spark Streaming

park Streaming概述。

理解DStream。

DStream相关操作（Transformations 和 Output Operations）。

5. Structured Streaming

6. 其他（MLlib and GraphX ）机器学习才用

Python学习

Python基础准备。
PythonWeb开发。
Python扩展开发。
Python开发选修。

数据仓库开发

PowerDesigner视频教程。
Oracle快速入门与提高。
详解SQL与PLSQL

其它课程

Redis课程

Redis入门视频课程。
Redis入门到精通、集群与应用。

Memcached课程

Memcached分布式集群。

数据仓库工具和文档

PowerDesigner 16破解文件。
Pdm导入导出脚本与模板。
OLAP及数据仓库讲解。
数据仓库原理、设计与应用等。

问题答疑

数据仓库开发为什么和大数据开发放到一起？

回答：从目前企业的招聘需求上来看，想到成为一名数据仓库开发工程师，必须董大数据相关的知识。

例如：

数据仓库工程师任职要求：

1、有至少3年数据仓库实施及至少2年模型设计经验，本科以上学历；

2、深入理解DW，BI相关的知识，包括：ETL、数据仓库、OLAP、多维数据模型等；

3、熟悉数据仓库建模理论，以及数据仓库数据层级关系，精通多维数据模型设计，具备大型数据仓库架构设计、模型设计和处理性能调优等相关经验；

4、熟练使用主流数据模型设计工具；

5、精通SQL，能够熟练使用HiveQL和Spark SQL进行数据开发，熟悉Hive数据模型优化；

6、具有良好的团队协作精神和沟通能力，较强的逻辑思维，学习能力和解决问题的能力，可承担较大的工作压力；

7、有独立设计数据仓库经验，熟悉数据仓库相关理论知识者优先；

8、有财务数据集市开发经验者优先。

如有需要课程者：请加QQ 1843527571。

***********************************************************************END********************************************************************

如有需要者，课程地址：

链接：https://pan.baidu.com/s/1tssjWQS3UjnM2nGitohIdw 密码：9pos

————————————————————————————————————————————————————————

关注

10
点赞
踩
59

收藏

觉得还不错? 一键收藏
打赏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

张陈亚 您的鼓励，将是我最大的坚持！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。