BigData大数据开发路线详细完整结构知识体系学习大全(2022)

一、基础知识

海量、多样、高增速、高速

(一)采集:

Flume/Kafka/Sqoop

(二)存储:

Mysql/Hasoop/Hbase/HDFS/mongoBD/Kafka

(三)计算:

Hive/Tez/Spark/Flink/Storm/MapReduce/Presto

(四)查询:

Presto/Druid/Kylin/Impala

(五)可视化:

Superset/Echarts/QuickBI/DataV

(六)任务调度:

Azkaban

(七)集群监控:

Zabbix

(八)元数据管理:

Atlas

(九)数据质量监控:

Shell/Griffin/python

二、开发平台

(一)Hadoop大数据处理框架

特性:处理、存储、分析、分布式、非结构化数据、开源框架
	 低成本、高可靠、高扩展、高有效、高容错
语言:Java
意义:大数据分布式系统基础架构、数据管理系统、数据分析
	 大规模并行处理框架、生态圈

1、MapReduce 磁盘离线分布式计算框架

磁盘离线批处理
计算分析
大规模数据并行运算
分布式运算
Map(映射)、Reduce(归约)
基础工具包、RPC 框架
将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序

2、HDFS分布式文件系统

3、HBase 实时数据存储管理系统

列族数据库、非关系型数据库

4、Zookeeper集群分布式协调系统

集群管理、分布式锁

5、Hive离线数据仓库

6、Yarn运行调度资源管理平台

7、TeZ(DAG计算)

计算分析

8、Spark(内存计算)

计算分析

9、Pig:流数据处理

提供类似sql语句查询
轻量级编程语言

10、Oozie:作业流调度系统

11、Flume:日志相关收集

美团

12、Sqoop:完成数据导入导出

数据库ELT工具
关系型数据库到HDFS、HBase、Hive互导

13、Ambari(最上层):部署工具

Hadoop快速部署工具

(二)Spark通用内存并行计算框架

特性:快速、易用、通用、随处
语言:Scala、函数式、面向对象
意义:大数据计算分析引擎
内存、可落地到磁盘

1、Spark core

2、Spark SQL

3、Spark Streaming:流处理库

4、graph-parallel(GraphX):图并行处理库

5、ML(MLlib):机器学习库

6、Shark SQL:并行式SQL查询库

7、HDFS、Tachyon:分布式文件存储系统(大量数据的存储)

8、Mesos,YARN:资源管理框架(调度计算任务)

三、数据仓库

四、数据分析

五、机器学习

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值