大数据学习路径

次日小猫回音

已于 2024-01-10 16:07:44 修改

阅读量491

点赞数 11

文章标签：学习大数据

于 2024-01-10 15:47:51 首次发布

本文链接：https://blog.csdn.net/shjggbdjkh/article/details/135504992

版权

大数据岗位主要为

大数据开发工程师、大数据数仓工程师、数据分析师、数据治理/运维工程师

1.基础篇

1.Linux基础：掌握基础Linux操作命令

2.复习SQL基础：基本的sql语法及执行顺序的了解，学习sql优化

3.复习JAVA基础：大数据必备开发语言

4.PYTHON/SCALA基础：主要是Spark/Flink方向学习，目前PYSPARK比较火。

学习批处理重点学习Spark，包括Spark Core、Spark SQL、GraphX这些。
学习流处理重点学习Flink，包括Flink DataStream、Flink SQL、Flink CEP这些。先学Spark、再学习Flink会容易一些。

2.数据存储与采集

大数据核心基础：hadoop基础、hive/hbase（数据存储引擎）、ETL（数据采集流程）（公司购买华为MRS，上面部署了大部分大数据组件。）

HADOOP基础：了解大数据基础组件HDFS、MR（了解）、Yarn原理及实战

Hive：大数据存储和分析重点技术组件，了解原理及实战公司使用hive

Hbase：大数据领域Nosql列式存储数据库，了解原理及实战

ETL：数据同步和集成，重点了解流程及原理主要了解 canal、debezium、Flink cdc（底层封装debezium）公司三种都有使用

3.数据管理与查询

数据仓库体系：掌握数仓体系搭建、维度建模等理论知识与实战（数仓建模-范式建模/维度建模）公司采用维度建模
数据治理体系：掌握企业数据治理体系方法论与实战
数据OLAP查询：掌握主要类型的几种OLAP查询引擎，比如Kylin、Clickhouse、Impala等公司预计采用Doris/数据湖Hudi

4.大数据工具

重点掌握部分大数据平台开发工具，类似任务调度、平台运维、消息中间件、组件协调等
Kafka：消息队列，大数据领域重点组件，掌握原理及使用
Zookeeper：分布式协调工具，了解原理及使用
Azkaban/DolphinScheduler：任务调度工具，了解原理及使用公司架构设计采用DolphinScheduler

5.数据计算

Spark：基于RDD数据模型，批处理及近实时分析利器。需要重点掌握Spark全体系原理、实战及调优，离线数仓（spark on hive）。
Flink：基于数据流、事件模型，流处理实时分析利器。需要重点掌握Flink全体系原理、实战及调优，实时数仓（flink + kafka+分析引擎）。
两种架构：离线+实时 Lambda 架构，纯实时 Kappa 架构