mapreduce on yarn处理流程及配置

最新推荐文章于 2021-12-06 13:06:55 发布

韩运畅

最新推荐文章于 2021-12-06 13:06:55 发布

阅读量193

点赞数

分类专栏：大数据的残余博客

本文链接：https://blog.csdn.net/qq_41634872/article/details/104121856

版权

大数据的残余博客专栏收录该内容

20 篇文章 0 订阅

订阅专栏

mapreduce:
1.切片的概念，记录的概念，key-value,排序的概念，reduce的个数
reduce原语
2.hadoop1.x作业处理流程：0
1)client
拿到作业，检查path是否合法，列出切片清单，将jar包，配置文件，切片清单上传至dfs
通知jobtracker
2)jobtracker（进行资源管理和任务调度，单点的）
接收到通知后，根据各个机器资源的情况，为每个切片（因为每个block有多个replication）
规划最优的机器来运行tasktracker
3)tasktracker
与jobtracker心跳时汇报自身资源情况同时查看jobtracker是否为自己安排了任务
缺点：jobtracker单点故障，压力过大，资源管理与任务调度强耦合
3.hadoop2.x（yarn是资源管理框架，用来管理资源）
1）client
拿到作业，检查path是否合法，列出切片清单，将jar包，配置文件，切片清单上传至dfs
通知resource manager
2）yarn
resource manager:接收到client的通知后，挑选一台不忙的机器创建该作业对应的application master
node manager：与datanode一一对应，用来监视当前机器上的资源使用情况并向resource manager汇报
3）mapreduce
application master：被创建后，向dfs下载切片资源列表等，然后向rm请求资源，然后拿着返回的资源抽象，开始创建container
并在container里开启task
task(container):作业完成后，task与am结束运行。
4.启动yarn（dfs，zookeeper启动的情况下）
1)修改配置文件
mapred-site.xml,yarn-site.xml
在node001上成功修改后文件分发给其他三台机器
2）启动
在node001上（管理机，对其他机器做了密钥处理）执行：yarn-site.sh start
这时候会发现yarn对应的nodemanager都已经启动了，但是resourcemanager还未启动，
需要在resource manager上手动执行:yarn-daemon.sh start resourcemanag

韩运畅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mapreduce on yarn处理流程及配置

mapreduce:1.切片的概念，记录的概念，key-value,排序的概念，reduce的个数reduce原语2.hadoop1.x作业处理流程：01)client拿到作业，检查path是否合法，列出切片清单，将jar包，配置文件，切片清单上传至dfs通知jobtracker2)jobtracker（进行资源管理和任务调度，单点的）接收到通知后，根据各个机器资源的情况，为每个切...
复制链接

扫一扫