MapReduce程序运行过程

最新推荐文章于 2024-06-29 17:01:13 发布

woshiermingerming

最新推荐文章于 2024-06-29 17:01:13 发布

阅读量1.2k

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woshiermingerming/article/details/52979608

版权

大数据专栏收录该内容

9 篇文章 0 订阅

订阅专栏

MapReduce程序运行过程

　　1. 作业运行过程：首先向JobTracker请求一个新的作业ID；然后检查输出说明（如输出目录已存在）、输出划分（如输入路径不存在）；JobTracker配置好所有需要的资源，然后把作业放入到一个内部的队列中，并对其进行初始化，初始化包括创建一个代表该正在运行的作业对象（封装任务和记录信息），以便跟踪任务的状态和进程；作业调度器获取分片信息，每个分片创建一个map任务。TaskTracker会执行一个简单的循环定期发送heartbeat给JobTracker，心跳间隔可自由设置，通过心跳JobTracker可以监控TaskTracker是否存活，同时也能获得TaskTracker处理的状态和问题，同时也能计算出整个Job的状态和进度。当JobTracker获得了最后一个完成指定任务的TaskTracker操作成功的通知时候，JobTracker会把整个Job状态置为成功，然后当客户端查询Job运行状态时候（注意：这个是异步操作），客户端会查到Job完成的通知的。

　　2. 逻辑角度分析作业运行顺序：输入分片(input split)、map阶段、combiner阶段、shuffle阶段、reduce阶段。

1. input split：在map计算之前，程序会根据输入文件计算split，每个input split针对一个map任务。input split存储的并非是数据本身，而是一个分片长度和一个记录数据的位置的数组。
2. map阶段：即执行map函数。
3. combiner阶段：这是一个可选择的函数，实质上是一种reduce操作。combiner是map的后续操作，主要是在map计算出中间文件前做一个简单的合并重复key值的操作。
4. shuffle阶段：指从map输出开始，包括系统执行排序即传送map输出到reduce作为输入的过程。另外针对map输出的key进行排序又叫sort阶段。map端shuffle，简单来说就是利用combiner对数据进行预排序，利用内存缓冲区来完成。reduce端的shuffle包括复制数据和归并数据，最终产生一个reduce输入文件。shuffle过程有许多可调优的参数来提高MapReduce的性能，其总原则就是给shuffle过程尽量多的内存空间。
5. reduce阶段：即执行reduce函数并存到hdfs文件系统中。

　　3. 作业调度器：目前hadoop的作业调度器主要有三种：

1. 先进先出调度器：优点，算法简单，JobTracker工作负担轻；缺点忽略不同作业的需求差异。
2. 容量调度器
3. 公平调度器

woshiermingerming

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。