大数据技术生态体系

最新推荐文章于 2024-05-06 15:52:17 发布

扛麻袋的少年

最新推荐文章于 2024-05-06 15:52:17 发布

阅读量1.7k

点赞数 3

分类专栏：大数据

本文链接：https://blog.csdn.net/lzb348110175/article/details/109113076

版权

1 篇文章 2 订阅

订阅专栏

在这里插入图片描述
1.数据来源层：

2.数据传输层：

Sqoop

Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
Flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。处理日志非常专业
Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，有如下特性：
（1）通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
（2）高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。
（3）支持通过Kafka服务器和消费机集群来分区消息。
（4）支持Hadoop并行数据加载。

3.数据存储层：

HDFS

分布式文件存储系统，Hadoop最擅长存储数据的地方
Kafka

Kafka内部也能缓存一些数据，默认就是1G的数据，通常不拿它来存储数据
HBase

HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

非关系型数据库，使用的是列存储方式

4.资源管理层：

5.数据计算层：

数据计算，又分为：实时计算、离线计算 两部分

5.1 离线计算：

离线计算：主要来统计日活、月活、年统计、本月消费情况等，并不是实时的数据

5.2 实时计算：

Spark Streaming 准实时计算

Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数据进行计算。

Spark Streaming 并不是完全实时的，它底层采用的是批处理技术(就是一批一批的处理，相当于是微批处理)，所以说 Spark Streaming 是准实时计算
Storm：实时计算

Storm 是实时计算。Storm用于“连续计算”，对数据流做连续查询，在计算时就将结果以流的形式输出给用户。但是它已经在走下坡路了。新起的 Flink 项目更优秀
Flink：实时计算

Flink 是时下很流行的实时计算框架。全面对标 Spark。Flink 支持实时计算，由于 Flink 引擎比较强大，它也同样支持离线计算。

Flink专题，你也可以来看我的博客：https://blog.csdn.net/lzb348110175/category_9677037.html

6.任务调度层

主要完成任务之间的执行调度问题。比如：任务何时启动、任务运行多长时间、r任务间的依赖问题，必须在A任务完成后才能执行B任务、多个任务的并行执行等，就需要用到任务调度了。

7.数据平台配置

8.业务模型层