mapreduce on yarn处理流程及配置

mapreduce:
1.切片的概念,记录的概念,key-value,排序的概念,reduce的个数
reduce原语
2.hadoop1.x作业处理流程:0
1)client
拿到作业,检查path是否合法,列出切片清单,将jar包,配置文件,切片清单上传至dfs
通知jobtracker
2)jobtracker(进行资源管理和任务调度,单点的)
接收到通知后,根据各个机器资源的情况,为每个切片(因为每个block有多个replication)
规划最优的机器来运行tasktracker
3)tasktracker
与jobtracker心跳时汇报自身资源情况同时查看jobtracker是否为自己安排了任务
缺点:jobtracker单点故障,压力过大,资源管理与任务调度强耦合
3.hadoop2.x(yarn是资源管理框架,用来管理资源)
1)client
拿到作业,检查path是否合法,列出切片清单,将jar包,配置文件,切片清单上传至dfs
通知resource manager
2)yarn
resource manager:接收到client的通知后,挑选一台不忙的机器创建该作业对应的application master
node manager:与datanode一一对应,用来监视当前机器上的资源使用情况并向resource manager汇报
3)mapreduce
application master:被创建后,向dfs下载切片资源列表等,然后向rm请求资源,然后拿着返回的资源抽象,开始创建container
并在container里开启task
task(container):作业完成后,task与am结束运行。
4.启动yarn(dfs,zookeeper启动的情况下)
1)修改配置文件
mapred-site.xml,yarn-site.xml
在node001上成功修改后文件分发给其他三台机器
2)启动
在node001上(管理机,对其他机器做了密钥处理)执行:yarn-site.sh start
这时候会发现yarn对应的nodemanager都已经启动了,但是resourcemanager还未启动,
需要在resource manager上手动执行:yarn-daemon.sh start resourcemanag

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值