BigData大数据开发路线详细完整结构知识体系学习大全（2022）

REMLILI

已于 2022-04-26 09:22:09 修改

阅读量5.9k

点赞数 1

分类专栏：虚拟化分布式文章标签：大数据 bigdata hadoop spark linux

于 2022-04-22 19:39:30 首次发布

本文链接：https://blog.csdn.net/qq_25482375/article/details/124353432

版权

虚拟化同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

分布式

5 篇文章 0 订阅

订阅专栏

BigData

一、基础知识
二、开发平台
三、数据仓库
四、数据分析
五、机器学习

一、基础知识

海量、多样、高增速、高速

（一）采集：

Flume/Kafka/Sqoop

（二）存储：

Mysql/Hasoop/Hbase/HDFS/mongoBD/Kafka

（三）计算：

Hive/Tez/Spark/Flink/Storm/MapReduce/Presto

（四）查询：

Presto/Druid/Kylin/Impala

（五）可视化：

Superset/Echarts/QuickBI/DataV

（六）任务调度：

Azkaban

（七）集群监控：

Zabbix

（八）元数据管理：

Atlas

（九）数据质量监控：

Shell/Griffin/python

二、开发平台

（一）Hadoop大数据处理框架

特性：处理、存储、分析、分布式、非结构化数据、开源框架
	 低成本、高可靠、高扩展、高有效、高容错
语言：Java
意义：大数据分布式系统基础架构、数据管理系统、数据分析
	 大规模并行处理框架、生态圈

1、MapReduce 磁盘离线分布式计算框架

磁盘离线批处理
计算分析
大规模数据并行运算
分布式运算
Map（映射）、Reduce（归约）
基础工具包、RPC 框架
将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序

2、HDFS分布式文件系统

3、HBase 实时数据存储管理系统

列族数据库、非关系型数据库

4、Zookeeper集群分布式协调系统

集群管理、分布式锁

5、Hive离线数据仓库

6、Yarn运行调度资源管理平台

7、TeZ（DAG计算）

计算分析

8、Spark（内存计算）

计算分析

9、Pig：流数据处理

提供类似sql语句查询
轻量级编程语言

10、Oozie：作业流调度系统

11、Flume：日志相关收集

美团

12、Sqoop：完成数据导入导出

数据库ELT工具
关系型数据库到HDFS、HBase、Hive互导

13、Ambari(最上层)：部署工具

Hadoop快速部署工具

（二）Spark通用内存并行计算框架

特性：快速、易用、通用、随处
语言：Scala、函数式、面向对象
意义：大数据计算分析引擎
内存、可落地到磁盘

1、Spark core

2、Spark SQL

3、Spark Streaming：流处理库

4、graph-parallel（GraphX）：图并行处理库

5、ML(MLlib)：机器学习库

6、Shark SQL：并行式SQL查询库

7、HDFS、Tachyon：分布式文件存储系统（大量数据的存储）

8、Mesos，YARN：资源管理框架（调度计算任务）

三、数据仓库

四、数据分析

五、机器学习

REMLILI

关注

1
点赞
踩
23

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录