MapReduce处理流程

最新推荐文章于 2023-10-24 14:48:30 发布

Java架构师联盟

最新推荐文章于 2023-10-24 14:48:30 发布

阅读量307

点赞数

分类专栏：处理流程大数据文章标签： hadoop 大数据 mapreduce java

git地址：https://github.com/biws-byte/mxq

本文链接：https://blog.csdn.net/weixin_42864905/article/details/104383198

版权

MapReduce是Hadoop框架下的分布式计算组件，通过JobTracker和TaskTracker进行任务调度与执行，主要分为map和reduce两个阶段。map阶段将任务分解，经过分区、排序和溢写处理，reduce阶段则进行数据聚合，将结果写入HDFS。然而，MapReduce存在单点故障、内存限制和计算延迟等问题。

摘要由CSDN通过智能技术生成

在了解了Hadoop的组建以及底层框架之后我们知道，Hadoop的底层是通过HDFS进行数据的存储，将数据存储到集群中然后调用其中的数据进行相应的计算，那么问题来了，谁来进行计算的操作呢？这个就是Hadoop的另外一个底层框架，也就是MapReduce，他在集群的作用就是负责进行数据的处理过程
为什么要使用mapreduce呢？因为mapreduce的核心是将用户编写的业务逻辑代码和自带的默认组件融合成一个完整的分布式应用程序然后提交到集群中进行处理，而大量的数据在单一的机器上进行运行是不可能的，硬件的限制决定了它根本完不成这个艰巨的任务，而且如果将一个单机的应用程序发放到一个集群中来分布式处理，那么势必会增加程序的复杂度和开发的难度，所以，综上考虑之后，引入了mapreduce计算框架，将分布式计算的复杂度交给框架来处理，开发人员就可以集中精力子业务逻辑上
MapReduce主要由JobTracker和TaskTracker（JobTracker负责资源管理和作业控制，TaskTracker负责任务的运行）组成，但在运行的过程中主要分为map和reduce两个阶段，map阶段就是将从jobtracker传入tasktracker的计算任务进行分解，分成一个个的小块，每一个小块都是以键值对的方式存在。对于多个map人物的输出，按照不同的分区copy到不同的节点上，然后根据键的值对map便利之后的键值对数据进行reduce聚合，相同键的放到一个reduce节点上（一般的map和reduce不在同一个节点上），然后对于reduce的输出的键值对写入HDFS中，但是在map和reduce的操作额过程中间会产生shuffle操作，将map分解后的数据先根据key进行分区，相同的key的值分配