Hadoop实践（三）---MapReduce作业运行全貌（YARN）

最新推荐文章于 2023-10-10 22:15:16 发布

狮锅艺

最新推荐文章于 2023-10-10 22:15:16 发布

阅读量962

点赞数

分类专栏： MapReduce Hadoop Hadoop实践文章标签： mapreduce hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Wee_Mita/article/details/52724178

版权

Hadoop 同时被 3 个专栏收录

46 篇文章 0 订阅

订阅专栏

29 篇文章 6 订阅

订阅专栏

23 篇文章 0 订阅

订阅专栏

在Hadoop 2.0中：

JobTracker被ResourceManager和Application Master替代
TaskTracker被NodeManager替代

1.Job.waitForCompletion（）所以行动的开始

上述调用开启了本地主机与JobTracker（ResourceManager【负责作业调度和执行的各个方面】）的通信，执行与作业相关的操作时，JobTracker是主要的接口。JobTracker代替我们与NameNode通信，并对存储在HDFS中的数据相关操作进行管理

2.JobTracker接受输入数据，并确定如何将其分配给map任务

HDFS文件通常被切分为64MB的数据块

3.JobTracker确定了所需要map任务数，检查集群中的主机数（正在运行的TaskTracker（NodeManager）数，可并发执行的map任务数）

JobTracker查找输入数据块的位置【数据局部性优化】

4.每个TaskTracker开启独立的Java虚拟机（JVM）执行任务

若任务数超过集群能力，JobTracker维护一个挂起任务队列

5.JobTracker等待TaskTracker执行完成任务，交换心跳和状态消息，查找进度或问题的证据

6.mapper输入

使用正则表达式或者StringTokenizer类可以更好的断句

7.mapper输出reducer输入

在map和reduce之间存在shuffle阶段，combiner对数据进行早期聚合减少传输量

8.分块

每个mapper的输出分块，使其分别传输到相应的各个reducer，如果reducer失败，JobTracker重新执行发生故障的reduce任务

9.可选分块函数

org.apache.hadoop.mapreduce.lib.partition包中Hash Partition类中

10.关机

成功执行所有任务，JobTracker想客户端输出作业的最终状态和作业运行过程中比较重要的计数器集合

JobTracker：50030 端口

Application ：8080 端口

HDFS ：50070 端口

TIPS：Hadoop不能保证Combiner被应用到map输出的次数，可能不执行，可能执行一次或者多次，这取决于输出文件的大小和数量

仔细推敲Combiner类，避免逻辑错误，有时候在小样本测试中是正常的，大师在大业务群中就会有问题

Writable 接口

当数据要在网络上传输或从硬盘读写时，提供数据的序列化和反序列化机制。所以用作mapper和reducer输入或输出的数据类型都必须实现这个接口。

驱动类（Driver）

指定MapReduce作业的输入和输出的数据格式和结果

org.apache.hadoop.lib.input

FileInputFormat：抽象基类，作为任何基于文件输入的父类
SequenceFileInputFormat：高效的二进制文件格式
TextInputFormat：普通文本文件
LineRecordReader：对文本文件的默认实现（行号：键内容：值）
SequenceFileRecordReader：从二进制文件SequnceFile读取键值对

org.apache.hadoop.mapreduce.output

FileOutputFormat：所以基于文件的OutputFormat的基类
NullOutputFormat：虚拟类，丢弃所有输出文件不做任何写入
SequenceFileOutputFormat：输出写入到二进制SequenceFile
TextOutputFormat：输出写入到普通文本文件

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop实践（三）---MapReduce作业运行全貌（YARN）

MapReduce作业运行过程
复制链接

扫一扫

专栏目录

狮锅艺 CSDN认证博客专家 CSDN认证企业博客

码龄9年

185: 原创

7万+: 周排名

181万+: 总排名

28万+: 访问

: 等级

4685: 积分

85: 粉丝

54: 获赞

9: 评论

119: 收藏

私信

关注

热门文章

分类专栏

Golang 1篇
感悟 1篇
基础算法（Java） 27篇
Spark原理 8篇
Java实践 33篇
Hadoop实践 29篇
Maven实践 12篇
Shell编程 5篇
深入理解计算机系统 1篇
Linux 30篇
Java 59篇
Spark 8篇
Maven 15篇
Hadoop 46篇
MapReduce 23篇
Mahout 6篇
HDFS 13篇
Ambari 5篇
ZooKeeper 1篇
Windows 6篇
vSphere 5篇
Office 9篇
数据结构与算法分析 28篇
源代码 15篇
GitHub 1篇
图计算 1篇
计算机系统 1篇

最新评论

Hadoop实践（三）---MR作业运行（源码详解）
No Kill Leader: 哈哈
Hadoop实践（三）---MR作业运行（源码详解）
侠客刀: 这叫源码解析，，，
Linux下识别NTFS格式的U盘
程序员部落Pro: 谢谢博主，学习了
基础算法（零）---递归
狮锅艺回复 Mr.隐者: [code=java] package T616; import java.util.Scanner; /** * Created by Promacanthus on 2017/6/16. */ public class fibonacci { private static int k = 0; private long n; fibonacci(long n) { System.out.println(calfibonacci(n)); } private long calfibonacci(long n) { if (n == 0 || n == 1) { k++; return n; } else { return calfibonacci(n - 1) + calfibonacci(n - 2); } } public static void main(String[] args) { Scanner scanner = new Scanner(System.in); long n = scanner.nextLong(); new fibonacci(n); System.out.println("Total call " + k + " times"); } } [/code]
基础算法（零）---递归
Mr.隐者: 打不开代码栏

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。