2.5.3 MapReduce 框架概述
MapReduce 将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总
2.6 大数据技术生态体系
数据来源层:
数据库(结构化数据)
文件日志(半结构化数据)
视频、ppt等(非结构化数据)
数据传输层:
Sqoop数据传递
Flume日志收集
Kafka消息队列
数据存储层:
HDFS文件存储
HBase非关系型数据库
Kafka消息队列
资源管理层:
YARN资源管理
数据计算层:
MapReduce离线计算(离线)Hive数据查询 Mahout数据挖掘
Spark Core内存计算 (离线 数据容易丢失)Mahout数据挖掘 Spark Mlib数据挖掘 Spark R数据分析 Spark Sql数据查询 Spark Streaming实时计算
Flink (离线)
任务调度层:
Oozie任务调度 Azkaban任务调度
//容易改变的信息放在zookeeper里 zookeeper数据平台配置和调度
业务模型层;
业务模型、数据可视化、业务应用
Hadoop——从Hadoop框架讨论大数据生态(二)
最新推荐文章于 2024-10-24 17:07:56 发布