大数据之hadoop简介

大数据之hadoop简介

一、背景信息

Hadoop的思想之源:Google
带给我们的关键技术和思想是谷歌的三篇论文

  • GFS(存储)
  • Map-Reduce(计算)
  • Bigtable

Hadoop创始人,Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目,目前在Cloudera 公司从事架构工作。其实他在搜索领域也是有很深的资历的,他曾经是lucene之父。

二、hadoop的演变

2.1 hadoop1.0
构成:
分两部分:hdfs和mapreduce
hdfs,即分布式存储系统
mapreduce即分布式计算框架

存在的缺陷:
hdfs存在的问题:
1.namenode易出现单点故障,难以应用于在线场景
2.namenode压力过大,且内存受限,影响系统扩展性。
mapreduce存在的问题:
1.JobTracker访问压力过大,影响系统扩展性
2.无法支持除了mapreduce以外的计算框架,如spark,storm等。

生态体系架构
在这里插入图片描述

2.2 hadoop2.x
构成:
分三部分:hdfs、mapreduce、yarn
hdfs:采用NN Federation(联邦)机制(后续会有详细解释),以及ha(高可用)
mapreduce:运行在yarn上的mapreduce,离线计算,基于磁盘I/O计算。
yarn:分布式资源管理框架,负责集群资源的管理和调度

生态体系架构
在这里插入图片描述

2.3 hadoop2.x 对1.0的优化

1.单点故障问题的优化
hadoop1.0的NameNode只有一个节点,一旦出现问题将导致整个集群瘫痪不能使用,对于这些hadoop2.0提出了HDFS Federation,它让多个NameNode(2.x实际暂时只支持两个,3.x版本才真正实现了多NameNode)分管不同的目录进而实现访问隔离和横向扩展,两个NameNode分为Active和Standbay状态,当Active状态的NameNode主现了问题可以配置成自动切换成Standbay的那个NameNode。同时Namenode的高可用要求一个主namenode和备的nnamenode要保持实时同步,主nn服务将元数据信息存储到内存中,那么备机NN服务也要同步把元信息存储到内存中。

2.扩展性问题的优化
将JobTracker中的资源管理和作业控制分开,分别由ResourceManager(负责所有应用程序的资源分配)和ApplicationMaster(负责管理一个应用程序)实现,即引入了资源管理框架Yarn,从而使MR在扩展性和多框架支持等方面的不足得到了很大提升。

3.只支持MR计算框架问题优化
yarn作为Hadoop2.0中的资源管理系统,它是一个通用的资源管理模块,不仅仅只是对MR一种框架,也可以在上面运行其他框架,如Tez、Spark、Storm等

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

喜鹊先生Richard

随缘~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值