大数据原理与技术（六）：大数据离线计算框架MapReduce

最新推荐文章于 2024-06-21 00:23:24 发布

昊In

最新推荐文章于 2024-06-21 00:23:24 发布

阅读量1.6k

点赞数 6

分类专栏：笔记文章标签： mapreduce 大数据

本文链接：https://blog.csdn.net/qq_45674052/article/details/119424215

版权

MapReduce是Hadoop的核心组件，用于大规模数据集的并行计算。它将复杂的计算过程抽象为Map和Reduce两个函数，数据被切割并由多个Map任务并行处理，然后Reduce任务汇总结果。Map函数接收键/值对并产生新的键/值对，Reduce函数对相同键的值进行处理并输出。MapReduce工作流程包括Map、Shuffle和Reduce阶段，其中Shuffle负责数据分区、排序和合并。

摘要由CSDN通过智能技术生成

MapReduce是Hadoop的核心组件之一，是一种并行编程模型，用于大规模数据集（TB级别）的并行计算。MapReduce框架将并行计算抽象成为两个函数：Map和Reduce。Hadoop MapReduce是基于HDFS的分布式编程框架，可以使没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。

文章目录

一、概述

1.MapReduce概述

2004年谷歌发表了关于MapReduce的论文，论文中指出MapReduce是谷歌的核心计算模型，是一种并行计算模型，它将运行在大规模集群上的复杂计算过程高度地抽象为两个函数：Map函数和Reduce函数。

在MapReduce中，一个存储在分布式文件系统中的大规模数据集会被切成许多独立的小数据块，这些小数据块可以被多个Map任务并行处理。MapReduce框架会为每个Map任务输入一个数据子集，Map任务生成的结果会继续作为Reduce任务的输入，最终由Reduce任务输出输出最后结果，并写入分布式文件系统。特别需要注意的是，适合用MapReduce来处理的数据集需要满足一个前提条件：待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。

MapReduce的计算思想是将一个复杂问题分解成一系列子问题，通过Map函数对子问题分别进行处理，再通过Reduce函数对子问题处理后的结果进行汇总计算，从而得出计算结果。
Hadoop MapReduce的主要特点是：

易于编程。程序员只需要描述做什么，具体怎么做交给系统的执行框架处理。
良好的扩展性。可通过添加节点以扩展集群能力。
高容错性。通

最低0.47元/天解锁文章

昊In

关注

6
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据原理与技术（六）：大数据离线计算框架MapReduce

MapReduce是Hadoop的核心组件之一，是一种并行编程模型，用于大规模数据集（TB级别）的并行计算。MapReduce框架将并行计算抽象成为两个函数：Map和Reduce。Hadoop MapReduce是基于HDFS的分布式编程框架，可以使没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。文章目录一、概述1.MapReduce概述2.Map函数和Reduce函数二、MapReduce的工作流程1.工作流程概述2.MapReduce的各个执行阶段3.Shuffle过程详解总
复制链接

扫一扫