数据仓库大数据开发学习的心路历程

8 篇文章 1 订阅
2 篇文章 0 订阅

课程背景本人目前从业于数据仓库和大数据开发工作,是从零基础自学出来的。本次课程也是自己的学习心得体会,给有上进精神的伙伴提供一个指路明灯。本课程的整理花费了本人不少的时间、金钱和心血。从一个懵懵懂懂的运维工程师自学转型到数据仓库开发、大数据开发的。

目的也是为了让致力于数据仓库开发、大数据开发的伙伴们,能够懂得珍惜这次的学习机会。

适合人员运维工程师、JAVA研发工程师、ETL抽取工程师、数据分析师、数据挖掘工程师等。

课程纲要

学习阶段

课程名称

课程内容

 

 

 

 

第一阶段(基础阶段)

Linux学习

1. Linux操作系统介绍与安装。

2. Linux常用命令。

3. Linux常用软件安装。

4. Linux网络。

5. 防火墙。

6. Shell编程等。

 

Java 学习

  1. JAVA基础:java简介、字符串、数组等

2. 掌握多线程。

3. 掌握并发包下的队列。

4. 了解JMS。

5. 掌握JVM技术。

6. 掌握反射和动态代理。

Zookeeper学习

1. Zookeeper分布式协调服务介绍。

2. Zookeeper集群的安装部署。

3. Zookeeper数据结构、命令。

4. Zookeeper的原理以及选举机制。

数据仓库理论

  1. 数据仓库入门课程。
  2. 数据仓库讲解。
  3. PowerDesigner数据仓库设计视频课程。
  4. 真实电商数据仓库全流程开发讲解。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第二阶段(攻坚阶段)

 

 

 

 

 

Hadoop学习

 HDFS

 

1. HDFS的概念和特性。

2. HDFS的shell操作。

3. HDFS的工作机制。

4. HDFS的Java应用开发。

 

MapReduce

 

1. 运行WordCount示例程序。

2. 了解MapReduce内部的运行机制。

         MapReduce程序运行流程解析。

         MapTask并发数的决定机制。

         MapReduce中的combiner组件应用。

         MapReduce中的序列化框架及应用。

         MapReduce中的排序。

         MapReduce中的自定义分区实现。

         MapReduce的shuffle机制。

         MapReduce利用数据压缩进行优化。

         MapReduce程序与YARN之间的关系。

         MapReduce参数优化。

3.  MapReduce的Java应用开发

 

 

 

 

 

Hive学习

1. Hive 基本概念

 

         Hive 应用场景。

         Hive 与hadoop的关系。

         Hive 与传统数据库对比。

         Hive 的数据存储机制。

 

2. Hive 基本操作

 

       Hive 中的DDL操作。

       在Hive 中如何实现高效的JOIN查询。

       Hive 的内置函数应用。

       Hive shell的高级使用方式。

       Hive 常用参数配置。

  Hive 自定义函数和Transform的使用技巧。

       Hive UDF/UDAF开发实例。

 

3. Hive 执行过程分析及优化策略

 

HBase学习

  1. hbase简介。
  2. habse安装。
  3. hbase数据模型。
  4. hbase命令。
  5. hbase开发。
  6. hbase原理。

 

 

 

Scala学习

1. Scala概述。

2. Scala编译器安装。

3. Scala基础。

4. 数组、映射、元组、集合。

5. 类、对象、继承、特质。

6. 模式匹配和样例类。

7. 了解Scala Actor并发编程。

8. 理解Akka。

9. 理解Scala高阶函数。

10. 理解Scala隐式转换。

 

 

 

 

 

Spark学习

1. Spark core

         Spark概述。

         Spark集群安装。

         执行第一个Spark案例程序(求PI)。

 

2. RDD

         RDD概述。

         创建RDD。

RDD编程API(Transformation 和 Action Operations)。

         RDD的依赖关系

         RDD的缓存

         DAG(有向无环图)

  

3. Spark SQL and DataFrame/DataSet

         Spark SQL概述。

         DataFrames。

         DataFrame常用操作。

         编写Spark SQL查询程序。

  

4. Spark Streaming

         park Streaming概述。

         理解DStream。

DStream相关操作(Transformations 和 Output Operations)。

 

5. Structured Streaming

 

6. 其他(MLlib and GraphX )机器学习才用

Python学习

  1. Python基础准备。
  2. PythonWeb开发。
  3. Python扩展开发。
  4. Python开发选修。

数据仓库开发

  1. PowerDesigner视频教程。
  2. Oracle快速入门与提高。
  3. 详解SQL与PLSQL

 

 

 

其它课程

Redis课程

  1. Redis入门视频课程。
  2. Redis入门到精通、集群与应用。

Memcached课程

  1. Memcached分布式集群。

 

数据仓库工具和文档

  1. PowerDesigner 16破解文件。
  2. Pdm导入导出脚本与模板。
  3. OLAP及数据仓库讲解。
  4. 数据仓库原理、设计与应用等。

问题答疑

  1. 数据仓库开发为什么和大数据开发放到一起?

回答:从目前企业的招聘需求上来看,想到成为一名数据仓库开发工程师,必须董大数据相关的知识。

例如:

数据仓库工程师任职要求:

1、有至少3年数据仓库实施及至少2年模型设计经验,本科以上学历;

2、深入理解DW,BI相关的知识,包括:ETL、数据仓库、OLAP、多维数据模型等;

3、熟悉数据仓库建模理论,以及数据仓库数据层级关系,精通多维数据模型设计,具备大型数据仓库架构设计、模型设计和处理性能调优等相关经验;

4、熟练使用主流数据模型设计工具;

5、精通SQL,能够熟练使用HiveQL和Spark SQL进行数据开发,熟悉Hive数据模型优化;

6、具有良好的团队协作精神和沟通能力,较强的逻辑思维,学习能力和解决问题的能力,可承担较大的工作压力;

7、有独立设计数据仓库经验,熟悉数据仓库相关理论知识者优先;

8、有财务数据集市开发经验者优先。

如有需要课程者:请加QQ 1843527571。

***********************************************************************END********************************************************************


如有需要者,课程地址:

链接:https://pan.baidu.com/s/1tssjWQS3UjnM2nGitohIdw 密码:9pos

 

————————————————————————————————————————————————————————

  • 10
    点赞
  • 58
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论
本教程为授权出品 一、课程简介数据仓库(Data Warehouse,可简写为DW或DWH),是面向分析的集成化数据环境,为企业决策制定过程,提供系统数据支持的战略集合,是国内外各大公司正在重点投入的战略级技术领域。 二、课程内容《大数据电商数仓项目实战》视频教程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。 三、课程目标本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。 四、课程亮点本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖哥真不错

您的鼓励,将是我最大的坚持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值