mapreduce:
1.切片的概念,记录的概念,key-value,排序的概念,reduce的个数
reduce原语
2.hadoop1.x作业处理流程:0
1)client
拿到作业,检查path是否合法,列出切片清单,将jar包,配置文件,切片清单上传至dfs
通知jobtracker
2)jobtracker(进行资源管理和任务调度,单点的)
接收到通知后,根据各个机器资源的情况,为每个切片(因为每个block有多个replication)
规划最优的机器来运行tasktracker
3)tasktracker
与jobtracker心跳时汇报自身资源情况同时查看jobtracker是否为自己安排了任务
缺点:jobtracker单点故障,压力过大,资源管理与任务调度强耦合
3.hadoop2.x(yarn是资源管理框架,用来管理资源)
1)client
拿到作业,检查path是否合法,列出切片清单,将jar包,配置文件,切片清单上传至dfs
通知resource manager
2)yarn
resource manager:接收到client的通知后,挑选一台不忙的机器创建该作业对应的application master
node manager:与datanode一一对应,用来监视当前机器上的资源使用情况并向resource manager汇报
3)mapreduce
application master:被创建后,向dfs下载切片资源列表等,然后向rm请求资源,然后拿着返回的资源抽象,开始创建container
并在container里开启task
task(container):作业完成后,task与am结束运行。
4.启动yarn(dfs,zookeeper启动的情况下)
1)修改配置文件
mapred-site.xml,yarn-site.xml
在node001上成功修改后文件分发给其他三台机器
2)启动
在node001上(管理机,对其他机器做了密钥处理)执行:yarn-site.sh start
这时候会发现yarn对应的nodemanager都已经启动了,但是resourcemanager还未启动,
需要在resource manager上手动执行:yarn-daemon.sh start resourcemanag
mapreduce on yarn处理流程及配置
最新推荐文章于 2021-12-06 13:06:55 发布