Mapreduce工作流程

最新推荐文章于 2024-08-27 06:39:08 发布

lqf1403

最新推荐文章于 2024-08-27 06:39:08 发布

阅读量8.8k

点赞数

分类专栏： MapReduce 文章标签： mapreduce hadoop 工作流程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GYQJN/article/details/50320597

版权

MapReduce是分治算法的一种，其处理流程包括Input、Map、Sort、Combine、Partition、Reduce和Output阶段。作业运行流程涉及作业提交、初始化、任务分配、执行、进度更新和作业完成。客户端提交作业，JobTracker协调任务，TaskTracker执行任务，HDFS存储数据。

摘要由CSDN通过智能技术生成

1、mapreduce实际处理流程

mapreduce 其实是分治算法的一种现，所谓分治算法就是“就是分而治之，将大的问题分解为相同类型的子问题（最好具有相同的规模），对子问题进行求解，然后合并成大问题的解。mapreduce就是分治法的一种，将输入进行分片，然后交给不同的task进行处理，然后合并成最终的解。
mapreduce实际的处理过程可以理解为Input->Map->Sort->Combine->Partition->Reduce->Output。

1.1、Input阶段

数据以一定的格式传递给Mapper，有TextInputFormat，DBInputFormat，SequenceFileFormat等可以使用，在Job.setInputFormat可以设置，也可以自定义分片函数。

1.2、Map阶段

对输入的(key，value)进行处理，即map(k1,v1)->list(k2,v2),使用Job.setMapperClass进行设置。

1.3、Sort阶段

对于Mapper的输出进行排序，使用Job.setOutputKeyComparatorClass进行设置，然后定义排序规则。

1.4、Combine阶段

这个阶段对于Sort之后又相同key的结果进行合并，使用Job.setCombinerClass进行设置，也可以自定义Combine Class类。

1.5、Partition阶段

最低0.47元/天解锁文章

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄14年

35
原创

129
点赞

187
收藏

45
粉丝

关注

私信

热门文章

分类专栏

排序算法 4篇
java 13篇
个人 2篇
python 1篇
machine learning 1篇
linux 4篇
scala 2篇
Hadoop 18篇
Hbase 8篇
MapReduce 11篇
maven 1篇
mahout 1篇
Java混合编程 1篇
java设计模式 1篇
Hadoop源码 1篇
JVM
数据结构 3篇

最新评论

根据中序和先序(后序)构建二叉树
patback1: 看你这解答给我看笑了，专门回复一下。你中序和后序创建树的第三步就是个错的。你写的“在前序遍历中，大树的root的leftchild位于root之后，所以左子树的根节点为D。”现在只有中序和后续，哪里来的前序？如果你非要先重建左子树，那正确的逻辑是：中序左子树中的元素在后序序列中下标最大的元素是中序左子树的根。更方便的办法是先重建右子树，其逻辑是：在后序遍历中，右子树的根在整个树root之前，所以右子树的根节点为M。
先序遍历和后序遍历为什么不能唯一地确定一棵树？
江湖人称小鱼哥: 还有m叉树了，二叉树只是其中一部分
先序遍历和后序遍历为什么不能唯一地确定一棵树？
wangym1551: 二叉树不是树吗？
先序遍历和后序遍历为什么不能唯一地确定一棵树？
江湖人称小鱼哥: 博主你赶紧修改博客吧，你说的是二叉树，不是树，树根据先根和后根是可以确定的唯一一棵树
浅谈AdaBoost算法--附有详细示例解析
旺仔牛仔r: 我终于搞明白了！感谢分享！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。