MapReduce

zkyCoder

于 2021-10-01 22:20:31 发布

阅读量484

点赞数

分类专栏： Hadoop 文章标签： hadoop big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41812379/article/details/120580653

版权

MapReduce

MapReduce是一种面向大规模数据处理的、分布式运算程序的编程框架。它通过将实际业务逻辑代码+自带默认组件的方式实现在Hadoop集群上的分布式计算。

MapReduce的优势

1. 易于编程

MapReduce框架将整个分布式的过程都进行了封装，用户只需要根据自己的实际业务，对简单的接口进行实现，就可以达到非常理想的目的。

2. 扩展性好

若计算资源不足时，可直接添加机器来提高计算力。

3. 容错率高

如果正在运行的节点发生了意外，可以把任务交给集群中另一个节点上运行，这个调度方法可直接由Hadoop内部完成，不需要人工干预。

MapReduce的劣势

1. 不擅长实时计算

MapReduce无法像 MySQL一样，在毫秒或者秒级内返回结果。

2. 不擅长流式计算

MapReduce无法处理在线产生的数据，只能处理离线数据。

3. 不擅长DAG（有向无环图）计算

多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce 并不是不能做，而是使用后，每个 MapReduce 作业的输出结果都会写入到磁盘，会造成大量的磁盘 IO，导致性能非常的低下。
资料来源：尚硅谷

MapReduce流程

MapReduce字如其名，其思想最主要的流程分为两大块，Map和Reduce。其中，map将数据分成几份并行计算，Reduce将map的结果统一。
在这里插入图片描述
但如果要将上述流程细分，则应该分成以下几步：

1. InputFormat切片阶段

首先，客户端会将数据分成多个数据切片，并由ApplicationMaster分配给相同数量的MapTask，一个数据切片

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce

MapReduceMapReduce是一种面向大规模数据处理的、分布式运算程序的编程框架。它通过将实际业务逻辑代码+自带默认组件的方式实现在Hadoop集群上的分布式计算。MapReduce的优势1. 易于编程MapReduce框架将整个分布式的过程都进行了封装，用户只需要根据自己的实际业务，对简单的接口进行实现，就可以达到非常理想的目的。2. 扩展性好若计算资源不足时，可直接添加机器来提高计算力。3. 容错率高如果正在运行的节点发生了意外，可以把任务交给集群中另一个节点上运行，这个调度方法
复制链接

扫一扫

专栏目录

zkyCoder CSDN认证博客专家 CSDN认证企业博客

码龄6年

33: 原创

40万+: 周排名

147万+: 总排名

8万+: 访问

: 等级

462: 积分

18: 粉丝

75: 获赞

7: 评论

531: 收藏

私信

关注

热门文章

分类专栏

Hadoop 9篇
leetcode 8篇
数据仓库 3篇
Redis 1篇
Kafka 2篇
ZookKeeper 1篇
ClickHouse 1篇
JVM 4篇
Spark 10篇
数据库 1篇
Flume 1篇
Spring系列 1篇
Java基础 1篇
小工具 2篇

最新评论

JVM内存结构
LTHMine: JDK 7 开始，静态变量改存放到 java.lang.Class 对象的末尾，即 Heap 中。 1.8之后方法区叫元空间，主要存字节码文件，静态变量还是存在堆内存，你别评论害人了
JVM内存结构
火从木来: 怎么玩意？哈？静态变量在堆？我去，静态变量再元空间！！！！！！！ok?别害人附上链接：https://www.jianshu.com/p/6b5dd67dc732
OLAP多维分析
哈哈__哈哈: 请问这个三维立方图是用哪种工具画的啊？
Spark Shuffle
冰雪_ang: 作者写的很好，一直不明白在shuffle阶段有没有做key排序，结合作者的文章和自己debug源码，确认，作者所列的shuffle算子： 1、map阶段，为了保证同一分区的数据在文件中连续，会进行partitionid的排序，但不会进行key的排序。 2、在reduce阶段，sortByKey,sortBy,repartitionAndSortWithinPartitions三个算子会进行key的排序，其他算子不会进行排序，因为在这三个算子中会调用ShuffledRDD的setKeyOrdering方法赋值KeyOrdering。给大佬敬花：
JVM内存结构
Forever & Always: 感谢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。