二、大数据的生态体系

最新推荐文章于 2022-03-16 11:39:40 发布

Mr贾

最新推荐文章于 2022-03-16 11:39:40 发布

阅读量965

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/qq_38330846/article/details/114220721

版权

2 篇文章 1 订阅

订阅专栏

自下而上:

数据来源层：主要是我们业务中的一些数据，比如：订单信息，客户访问量，客户访问喜好等
数据传输层：根据数据的结构不同主要分为Sqoop\Flume\Kafka等
数据存储层：Hadoop中常用的文件存储主件就是HDFS，HBase是非关系型数据以<K, V>键值对存储，Kafka可以有1G的缓存
资源管理层：Yarn资源的管理，负责分配内存、网络分配等
数据计算层：分为离线调度和实时调度
1. 离线计算主要负责统计任务，比如一天、一个月的交易量等，常用MapReduce 和 SparkCore内存计算
2. 实时计算主要负责高并发的实时计算，比如双十一活动等，主要是Spark Streaming实时计算和Flink.
任务调度层：负责任务的先后顺序和依赖调度等任务安排

关注