Hadoop 教程 - MapReduce概述

用心去追梦

于 2024-06-24 16:05:07 发布

阅读量371

点赞数 5

文章标签： hadoop mapreduce 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33240556/article/details/139929202

版权

Hadoop中的MapReduce是一个分布式计算框架，专为处理和生成大型数据集（通常大于1TB）而设计。MapReduce的概念源于Google的两篇论文《Google File System》和《Google MapReduce》，后来在Apache Hadoop项目中得以实现和发展。以下是MapReduce的核心概念和工作流程概述：

核心思想

MapReduce的核心分为两个主要阶段：Map（映射）和Reduce（归纳/归约）。

Map阶段：此阶段将输入数据集切分成多个小块，每个小块由一个Map任务处理。Map任务读取这些数据块，对每条记录应用用户自定义的Map函数，将输入数据转换成一系列的键值对（key-value pairs）。这个过程可以看作是一种过滤和排序操作。
Reduce阶段：接着，Map产生的中间键值对按照键（key）进行排序和分组，相同键的所有值集合在一起交给Reduce任务处理。每个Reduce任务对这些键值对进行规约操作（例如求和、平均、计数等），生成最终输出的键值对。

工作流程

输入分片：输入数据首先被划分为多个分片（splits），每个分片对应一个Map任务。
执行Map：Map任务读取分片数据，执行Map函数产生一系列中间键值对。
排序与分区：Map产生的中间键值对会被排序，并按照预定义的分区规则分配给不同的Reduce任务。
Shuffle：在这个阶段，数据被重新分布（shuffle），确保相同键的键值对发送到同一个Reduce任务。
执行Reduce：Reduce任务对收到的键值对进行归约操作，产生最终输出。
输出结果：所有Reduce任务的输出被汇总，形成最终的处理结果，通常存储在HDFS或其他存储系统中。

特点与优势

易于编程：用户只需实现Map和Reduce两个函数即可完成复杂的数据处理任务。
扩展性：通过增加更多的计算节点，MapReduce能够线性扩展以处理更大的数据集。
容错性：Hadoop框架自动处理节点故障，确保任务能够完成。
批处理：适合大规模离线数据处理，但不适用于低延迟实时计算。

劣势

延迟较高：由于其批处理性质，MapReduce不适合实时数据分析。
资源利用率：早期版本的MapReduce在小规模数据处理或迭代计算中资源使用效率不高。

MapReduce作为Hadoop生态系统的核心组件之一，为大数据分析和处理提供了强大的支持，广泛应用于日志分析、数据挖掘、机器学习预处理等多个领域。

用心去追梦

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。