
一、离线计算
- 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示。
- 代表技术:Sqoop 批量导入数据、HDFS 批量存储数据、MapReduce 批量计算数据、Hive 批量计算数据。
- MapReduce:是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。
MapReduce无法像MySQL一样,在毫秒或者秒级内返回结果。流式计算的输入数据是动态的,而MapReduce的输入数据集是静态的,不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。
MapReduce运算过程需要分成至少2个阶段:
- 第一个阶段的MapTask并发实例,完全并行运行,互不相干。
- 第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。
MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。
二、常见流式计算框架对比
- 离线计算与实时计算最大的区别:实时收集、实时计算、实时展示。
本文探讨了数据中台建设中的批处理和流式计算。离线计算涉及 Sqoop、HDFS、MapReduce 和 Hive,适合批量处理。流式计算如 Storm、Spark 和 Flink 则用于实时数据处理,Flink 在流处理领域表现优秀。同时提到了可视化ETL工具在数据建模和分析中的应用。
最低0.47元/天 解锁文章

2626

被折叠的 条评论
为什么被折叠?



