MapReduce - 全面讲解

最新推荐文章于 2022-10-27 14:45:21 发布

A卤蛋

最新推荐文章于 2022-10-27 14:45:21 发布

阅读量235

点赞数

分类专栏：知识点文章标签： hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Forest_sld/article/details/111505535

版权

知识点专栏收录该内容

8 篇文章 0 订阅

订阅专栏

MapReduce 目录

一、什么是MapReduce?
二、MapReduce的流程
- Map阶段:
- Shuffle阶段：
三、MapReduce优缺点
- 优点
- 缺点

一、什么是MapReduce?

二、MapReduce的流程

在这里插入图片描述 具体流程：

Map阶段:

1、利用客户端指定的InputFormat来读取数据
2、利用客户端编写的RecordReader,通过reader()方法，去读取文件，一次读一行，一行就是一份文件片
3、生成一个个键值对(K,V)，K是行偏移量，V是内容
4、获取键值对，通过Mapper的Map()方法，逻辑处理生成一个个新的键值对map(k,v) ： k是单词，v是个数。然后通过context.write()将(k,v)写入到OutputCollector收集器中。

Shuffle阶段：

（注： combiner是优化）

1、将收集器里的数据放入环形缓冲区(默认100M),当环形缓冲区的数据量达到80%时，会溢出。(溢出前: 需要对环形缓冲区的键hash出一个partition值，然后根据partition分区，在相同的分区内根据键进行排序。) 如果 设置了Combiner ，那么就会将同一key的键值合并在一起，此时的文件就是有分区且分区内有序的大文件，这样可以减少网络传输。如果没有 设置Combiner, 环形缓冲区开始溢出到Map Task磁盘，此时是有分区且分区内有序的小文件。如果数据量过大，会溢出多个文件。小文件会被merge归并排序成有分区且分区内有序的大文件，此时map task结束
2、

三、MapReduce优缺点

优点

缺点

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

A卤蛋 CSDN认证博客专家 CSDN认证企业博客

码龄4年

22: 原创

57万+: 周排名

129万+: 总排名

1万+: 访问

: 等级

237: 积分

5: 粉丝

5: 获赞

6: 评论

15: 收藏

私信

关注

热门文章

分类专栏

异常 2篇
知识点 8篇
解决方案 1篇
配置文件 4篇
安装 5篇
代码 3篇
数据倾斜 1篇
spark 1篇
脚本 1篇
虚拟机克隆 1篇
sqoop 1篇

最新评论

启动Hbase,HMaster消失了的解决方案
CSDN-Ada助手: 非常感谢CSDN博主的分享，启动Hbase时出现HMaster消失的问题确实会让人困扰。我觉得博主可以继续就如何解决Hbase相关问题写一篇博客，比如介绍Hbase的常见问题及解决方案，或者分享一些实用的Hbase调试技巧等等，这样的技术文章对其他用户一定会非常有帮助。相信会有更多读者关注和支持你的博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
JAVA练习题（会有100道吗？）
ctotalk: good
算法-二分法
所行化坦途: 下班回家看到博主文章更新，学到了。
Sqoop 基本原理
所行化坦途: 博主解释的很全面，学到了。
算法-二分法
不正经的kimol君: 厉害，赞一个,欢迎回赞哦~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。