hadoop2.x学习01

hadoop2.x学习01

最新的发行版本已经是2.7了,我围绕2.5展开学习。

hadoop2.x是在hadoop0.23之后发行的正式版2.2。
本身是来自于lucene和nutch,在ggl的论文MR、GFS、BigTable组合下生成了hadoop,对海量数据进行分析处理。

相比于hadoop1.x,2.x版本新增加了一个资源调度模块yarn,正是2.x版本的最强之处。2.x版本分为4个模块,hadoop common公共模块即1.x的hadoop core核心模块、hadoop hdfs存储模块、hadoop yarn调度模块、hadoop MR数据处理模块。

hadoop hdfs是一个高性能分布式存储系统。大数据量文件按块划分存储到机柜机架集群中。分布式系统具有高度的内聚性和透明性。hdfs系统中分为name node和datanodes两种节点。namenode存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,文件权限),以及文件的块列表和块所在datanode。datanode是集群中的任一计算机,其功能为在本地文件系统存储文件的块数据以及块数据的校验和。通常集群中存在secondary namenode用来监控HDSF状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照,作为灾难备份,在主namenode发生问题时继续管理datanode。

hadoop yarn是一个资源调度管理系统。yarn分为resource manager和node manager两种节点。客户端操作请求进入resourcemanager,在RM中生成applicationmaster数据appms。
appms中包含数据的元信息,以及为请求所分配的资源使用方案。
RM将APPMS的信息分配到Nodemanager中,NM处理RM发来的信息,以及APPMS中的信息,分配任务,生成container来执行任务。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值