大数据核心-CSDN博客

第一阶段： java基础核心

1 深入理解Java面向对象思想

2 掌握开发中常用基础API

3 熟练使用集合框架、IO流、异常

4 能够基于JDK8开发

5 熟练使用MySQL，掌握SQL语法

重要技术清单：

java 基础语法：

@分支结构if/switch、循环结构for/while/do while

@方法重载，数组的使用，命令行的参数，可变参数

@方法声明和调用，参数传递

IDEA：

IDEA常用设置、常用快捷键、自定义模板、关联Tomcat、Web项目案例实操

面向对象编程：

@封装、继承、多态

@构造器、包

@super、this、Object类

@异常处理机制

@抽象类、接口、内部类

@枚举、注解、代理设计模式

@工厂设计模式、模板设计模式

@面向对象高级应用

@常用基础API、集合List/Set/Map、泛型、线程的创建和启动

@深入集合源码分析、常见数据结构解析

@线程的安全、同步和通信、IO流体系、反射、类的加载机制、网络编程

Java8-17新特性：

@Lambda表达式、方法引用、构造器引用、StreamAPI

@jShell(JShell)命令、接口的私有方法、Optional加强

@局部变量的类型推断、更简化的编译运行程序等

mysql:

DML语言、DDL语言、DCL语言

@分组查询、Join查询、子查询、Union查询、函数

@流程控制语句、事务的特点、事务的隔离级别等

@索引和优化、存储引擎、锁机制、高可用设计、集群

@分库分表、主从复制、视图

@存储过程、触发器、自定义函数等

JDBC:

@使用JDBC完成数据库增删改查操作、批处理的操作

@数据库连接池的原理及应用

@常见数据库连接池C3P0、DBCP、Druid等

第二阶段：Hadoop生态体系架构

1 Linux系统的安装和操作

2 熟练掌握Shell脚本语法

3 IDEA、Maven等开发工具的使用

4 Hadoop组成、安装、架构和源码深度解析，以及API的熟练使用

5 Hive的安装部署、内部架构、熟练使用其开发需求以及企业级调优

6 Zookeeper的内部原理、选举机制以及大数据生态体系下的应用

7 Flume的架构原理、组件自定义、监控搭建，熟练使用Flume开发实战需求

8 Kafka的安装部署以及框架原理，重点掌握Kafka的分区分配策略、数据可靠性、数据一致性、数据乱序处理、零拷贝原理、高效读写原理、消费策略、再平衡等内容

9 统筹Hadoop生态下的Hadoop、Flume 、Zookeeper、Kafka、DataX、MaxWell等诸多框架，搭建数据采集系统，熟练掌握框架结构和企业级调优手段

关键技术：

Maven：

@Maven环境搭建、本地仓库&中央仓库、创建Web工程、自动部署&持续继承&持续部署

Linux：

@VI/VIM编辑器、系统管理操作&远程登录、常用命令、软件包管理&企业真题

Shell编程:

@自定义变量与特殊变量、运算符、条件判断、流程控制、系统函数&自定义函数

@常用工具命令、常用正则表达式、面试真题

Hadoop:

@Hadoop生态介绍、Hadoop运行模式、源码编译、HDFS文件系统底层详解

@D@N&NN工作机制、HDFS的API操作、MapReduce框架原理

@数据压缩、Yarn工作机制、MapReduce案例详解、Hadoop参数调优

Zookeeper:

@Zookeeper数据结果、内部原理、选举机制、Stat结构体、监听器、分布式安装部署

@API操作、实战案例、面试真题

HA+新特性:

@HDFS-HA集群配置

Hive:

@Hive架构原理、安装部署、远程连接、常见命令及基本数据类型、DML数据操作

@查询语句、Join&排序、分桶&函数、压缩&存储、企业级调优、实战案例、面试真题

Flume:

@Flume架构、Agent内部原理、事务、安装部署、实战案例、自定义Source

@自定义Sink、Ganglia监控

Kafka:

@基础架构、安装部署、命令行操作、生产者消息发送流程、异步发送API、同步发送API

@生产者分区策略、生产者如何提高吞吐量、数据可靠性、数据去重、数据有序、数据乱序

@节点服役和退役、Leader选举流程、文件存储机制、高效读写原理、消费策略、数据积压

@Kafka-Eagle监控、Kafka-Kraft模式

第三阶段：Spark生态体系架构

1、Spark的入门安装部署、Spark Core部分的基本API使用熟练、RDD编程进阶、累加器和广播变量的使用和原理掌握、Spark SQL的编程掌握和如何自定义函数、Spark的内核源码详解（包括部署、启动、任务划分调度、内存管理等）、Spark的企业级调优策略

2、DophineScheduler的安装部署，熟练使用进行工作流的调度执行

3、全面了解数据仓库建模理论，充分熟悉电商行业数据分析指标体系，快速掌握多种大数据技术框架，了解认识多种数据仓库技术模块

4、HBase和Phoenix的部署使用、原理架构讲解与企业级优化

5、开发工具Git&Git Hub的熟练使用

Spark

@安装部署、RDD概述、编程模型、持久化&检查点机制、DAG、算子详解

@RDD编程进阶、累加器&广播变量、SparkSQL、DataFrame 、DataSet

@自定义UDF&UDAF函数、SparkSQL企业级调优、数据倾斜处理、小文件处理、大表join大表

@大小表MapJoin、谓词下推、CPU配置、内存配置等

Presto

@Presto的安装部署

@使用Presto执行数仓项目的即席查询模块

Superset

@使用SuperSet对数仓项目的计算结果进行可视化展示

DolphinScheduler

@任务调度工具DolphinScheduler的安装部署

@实现数仓项目任务的自动化调度、配置邮件报警

DataX

@DataX架构原理、DataX部署、DataX使用、DataX优化

Atlas2.0

@元数据管理工具Atlas的安装部署

MaxWell

@使用MaxWell实时监控MySQL数据变化采集至实时项目

Zabbix

@集群监控工具Zabbix的安装部署

HBase

@HBase原理及架构、数据读写流程、API使用、企业级调优

Redis

@安装配置、Redis的五大数据类型、Jedis、持久化、RDB、AOF

第四阶段：Flink生态体系架构

1 熟练掌握Flink的基本架构以及流式数据处理思想，熟练使用Flink多种Soure、Sink处理数据，熟练使用基本API、Window API 、状态函数、Flink SQL、Flink CEP复杂事件处理等

2 使用Flink搭建实时数仓项目，熟练使用Flink框架分析计算各种指标

3 ClickHouse安装、使用及调优

4 项目实战。贴近大数据的实际处理场景，多维度设计实战项目，能够更广泛的掌握大数据需求解决方案，全流程参与项目打造，短时间提高学生的实战水平，对各个常用框架加强认知，迅速累积实战经验

5 可选掌握推荐和机器学习项目，熟悉并使用系统过滤算法以及基于内容的推荐算法等

6 采用阿里云平台全套大数据产品重构电商项目，熟悉离线数仓、实时指标的阿里云解决方案

Flink

@运行时架构、数据源Source、Window API、Water Mark、状态编程、Flink SQL

@Table API、CEP复杂事件处理、Flink源码、Flink优化

ClickHouse

@ClickHouse安装、使用及调优

SugarBI

@结合Springboot对接百度SugarBI实现数据可视化大屏展示

Doris

@Doris编译域安装、集群扩容和缩容、数据划分、数据模型

@动态分区、Rollup、物化视图、表的创建修改和删除、数据导入导出

@查询设置、Join查询、集成Spark、集成Flink、企业级优化、数据备份和恢复

Hudi

@Hudi快速构建、集成Spark、集成Flink、生产调优

Iceberg

@Iceberg构建、集成Spark、集成Flink、生产调优

K8S

@集群搭建、YAML文件详解、命令行工具Kubectl、Pod、Label

@Controller、Volume、PVC和PV、Secret、configMap、Namespace

@Service、探针、调度器、集群安全机制RBAC、性能监控平台、Helm

Git&GitHub

@安装配置、本地库搭建、基本操作、工作流、集中式

Springboot

@利用Springboot开发可视化接口程序

阶段五：AI辅助编程阶段

Shell编程

A辅助编写Shell脚本

Hadoop

AI辅助编写MapReduce程序、解决Bug

Hive

AI辅助编写Hive SQL，辅助进行SQL性能调优

Flume

AI辅助组件选择和工作流脚本编写

Kafka

AI辅助解决Bug和性能调优

Spark

AI辅助编写Spark开发代码、编写Spark SQL、解决Bug、性能调优

DataX

AI辅助编写工作流脚本

Flink

AI辅助编写需求代码、解决代码Bug

ClickHouse

AI辅助性能调优

数据仓库采集系统实战

AI辅助项目集群搭建、分析数据结构、Flume组件选型、Kafka配置调优等

离线数据仓库项目实战

AI辅助数据仓库建模、Hive SQL调优、调度脚本编写、指标体系构建、可视化接口编写

实时数据仓库项目实战

AI辅助编写需求代码、辅助解决Bug、性能调优、需求解决方案优化等

原创作者: u_13887992 转载于: https://blog.51cto.com/u_13887992/11465569