Hadoop(七) MapReduce介绍

Allen019

于 2024-08-18 08:46:48 发布

阅读量23

点赞数 1

分类专栏： # hadoop 文章标签： hadoop mapreduce 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sadfasdfsafadsa/article/details/141270025

版权

hadoop 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

MapReduce是一种分布式运算程序的编程框架，是用户开发“基于hadoop数据分析应用”的核心框架。

核心功能是用户编写的业务逻辑代码和系统自带的组件组合在一起，构成一个分布式运算程序，并发运行在Hadoop集群上。

它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组

MapReduce是Doug Cutting根据Google的论文<The Google MapReduce>来仿照实现的

MapReduce会将整个计算过程拆分为2个阶段：Map阶段和Reduce阶段。在Map阶段，用户需要考虑对数据进行规整和映射；在Reduce阶段，用户需要考虑对数据进行最后的规约

MapReduce优缺点

　　MapReduce易于编程，简单实现它的接口，就可以完成一个分布式程序。并且分布式程序可以分布在大量廉价的机器上运行。这使得用户在编写分布式应用程序时跟编写简单的串行应用程序相同。

　　良好的扩展性：如果当前集群的性能不够，那么MapReduce能够轻易的通过增加节点数量的方式来提高集群性能

　　高容错性：MapReduce设计就是为了程序能够在廉价的机器上运行，当一台机器出现故障时他会将计算任务移交给其他的节点来完成，这个过程不需要人工参与由hadoop内部来完成。

　　适合PB级别海量数据的离线处理：主要是可以实现上千台以上的服务器集群并发工作，提供数据处理能力。

MapReduce缺点
　　不擅长实时计算

　　不擅长流式计算

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hadoop(七) MapReduce介绍

当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。在Reduce阶段，用户需要考虑对数据进行最后的规约。高容错性：MapReduce设计就是为了程序能够在廉价的机器上运行，当一台机器出现故障时他会将计算任务移交给其他的节点来完成，这个过程不需要人工参与由hadoop内部来完成。核心功能是用户编写的业务逻辑代码和系统自带的组件组合在一起，构成一个分布式运算程序，并发运行在Hadoop集群上。
复制链接

扫一扫

专栏目录

目录

分类专栏

大数据 5篇
hadoop 11篇
hdfs 7篇
flume 35篇
hive 17篇
flink 19篇
kafka 8篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Allen019 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。