大数据干货系列(三)-- Hadoop2.0总结

Hadoop2.0总结

 

本质

Hadoop2.0,相比于Hadoop1.0,最明显的区别是YARN系统和HDFS2.0的新特性


、Yarn解决了什么问题

1. 降低运维成本和数据共享成本

2. 减小了 JobTracker(也就是现在的 RM)的负担

3. 使得多种计算框架可以运行在一个集群中

4. 资源表示成内存量解决了之前的map slot/reduce slot分开造成集群资源闲置的情况

 

、HDFS2.0解决了什么问题

1. NameNode HA 解决了Hadoop1.0NameNode的单点问题


2. NameNode Federation 解决了NameNode的横向扩展问题


3. HDFS Snapshot 解决了数据备份防止用户错误操作和容灾恢复

4. HDFS Cache 可以防止频繁使用的数据被从内存中清除

5. HDFS ACL 使得权限控制可以对单个用户操作

6.异构层级存储结构 支持一个集群中有多种不同的存储介质

 

系统架构


1.ResourceManager(RM)

• RM处理客户端请求接收JobSubmitter提交的作业按照作业的上下文(Context) 信息以及从 NodeManager(NM) 收集来的状态信息启动调度过程分配一个 Container 作为 App Master

• RM拥有为系统中所有应用资源分配的决定权是中心服务做的事情就是调度启动每一个Job所属的Application、另外监控Application的存在情况

• 与运行在每个节点上的NM进程交互通过心跳通信达到监控NM的目的

 

2. ApplicationMaster(AM)

• 应用程序的Master,每一个应用对应一个AM,类似旧的JobTracker

• RM协商资源

– Scheduler协商合适的Container

• NM协同工作与Scheduler协商合适的Container进行Container的监控

• 以一个普通Container的身份运行

 

3. NodeManager(NM)

• slave进程类似TaskTracker的角色是每个机器框架代理

• 处理来自RM的任务请求

• 接收并处理来自ApplicationMasterContainer启动停止等各种请求

• 负责启动应用程序的Container(执行应用程序的容器),并监控他们的资源使用情况(CPU、内存磁盘和网络),并报告给RM

 

4. Container

• 是任务运行环境的抽象封装

• Container只是使用NM上指定资源的权利

• AM必须向NM提供更多的信息来启动Container

• 描述任务的运行资源节点内存、cpu)、启动命令和运行环境

 

Yarn是重构的MapReduce,其根本思想 JobTracker 两个主要的功能分离成单独的组件这两个功能是资源管理(RM)任务调度(AM) 

 

、Yarn的执行流程与容错


1. RM挂掉

单点故障新版本可以基于Zookeeper实现HA高可用集群可通过配置进行设置准备RM,主提供服务备同步主的信息一旦主挂掉备立即做切换接替进行服务


2. NM挂掉

NM挂了会通过心跳方式通知RM,RM将情况通知对应AM,AM作进一步处理


3. AM挂掉

        若挂掉,RM负责重启,其实RM上有一个RMApplicationMaster,是AM的AM,上面保存已经完成的task


以上.


如果觉得本文对你有帮助,可以帮忙点个赞表示支持吗,谢谢!

如果有任何意见和建议,也欢迎再下方留言~





 

关注这个公众号,每天22:00会有三道大数据面试题准时推送给你哦~


点击这里查看往期精彩内容:

每日三问

大数据干货系列(一)--MapReduce总结

大数据干货系列(二)--HDFS1.0


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值