大数据学习路径

大数据岗位主要为

大数据开发工程师、大数据数仓工程师、数据分析师、数据治理/运维工程师

1.基础篇

1.Linux基础:掌握基础Linux操作命令

2.复习SQL基础:基本的sql语法及执行顺序的了解,学习sql优化

3.复习JAVA基础:大数据必备开发语言

4.PYTHON/SCALA基础:主要是Spark/Flink方向学习,目前PYSPARK比较火。

学习批处理重点学习Spark,包括Spark Core、Spark SQL、GraphX这些。
学习流处理重点学习Flink,包括Flink DataStream、Flink SQL、Flink CEP这些。先学Spark、再学习Flink会容易一些。 

2.数据存储与采集 

大数据核心基础:hadoop基础、hive/hbase(数据存储引擎)、ETL(数据采集流程)(公司购买华为MRS,上面部署了大部分大数据组件。)

HADOOP基础:了解大数据基础组件HDFS、MR(了解)、Yarn原理及实战

Hive:大数据存储和分析重点技术组件,了解原理及实战 公司使用hive

Hbase:大数据领域Nosql列式存储数据库,了解原理及实战

ETL:数据同步和集成,重点了解流程及原理 主要了解 canal、debezium、Flink cdc(底层封装debezium)公司三种都有使用

3.数据管理与查询


数据仓库体系:掌握数仓体系搭建、维度建模等理论知识与实战 (数仓建模-范式建模/维度建模)公司采用维度建模
数据治理体系:掌握企业数据治理体系方法论与实战
数据OLAP查询:掌握主要类型的几种OLAP查询引擎,比如Kylin、Clickhouse、Impala等   公司预计采用Doris/数据湖Hudi

4.大数据工具


重点掌握部分大数据平台开发工具,类似任务调度、平台运维、消息中间件、组件协调等
Kafka:消息队列,大数据领域重点组件,掌握原理及使用
Zookeeper:分布式协调工具,了解原理及使用
Azkaban/DolphinScheduler:任务调度工具,了解原理及使用 公司架构设计采用DolphinScheduler

5.数据计算


Spark:基于RDD数据模型,批处理及近实时分析利器。需要重点掌握Spark全体系原理、实战及调优,离线数仓(spark on hive)。
Flink:基于数据流、事件模型,流处理实时分析利器。需要重点掌握Flink全体系原理、实战及调优,实时数仓(flink + kafka+分析引擎)。
两种架构:离线+实时 Lambda 架构 , 纯实时 Kappa 架构

5.数据可视化


数据的可视化展示和分析。主要了解几种常见的报表工具:PowerBI、Superset和Tableua等
公司目前用的是帆软

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值