大数据之hadoop简介

最新推荐文章于 2023-12-14 10:17:13 发布

喜鹊先生Richard

最新推荐文章于 2023-12-14 10:17:13 发布

阅读量358

点赞数

分类专栏：大数据开发文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/Cactus_Lrg/article/details/83271857

版权

大数据开发专栏收录该内容

3 篇文章 0 订阅

订阅专栏

大数据之hadoop简介

一、背景信息

Hadoop的思想之源：Google
带给我们的关键技术和思想是谷歌的三篇论文

GFS（存储）
Map-Reduce（计算）
Bigtable

Hadoop创始人，Hadoop作者Doug cutting，就职Yahoo期间开发了Hadoop项目，目前在Cloudera 公司从事架构工作。其实他在搜索领域也是有很深的资历的，他曾经是lucene之父。

二、hadoop的演变

2.1 hadoop1.0
构成：
分两部分：hdfs和mapreduce
hdfs，即分布式存储系统
mapreduce即分布式计算框架

存在的缺陷：
hdfs存在的问题：
1.namenode易出现单点故障，难以应用于在线场景
2.namenode压力过大，且内存受限，影响系统扩展性。
mapreduce存在的问题：
1.JobTracker访问压力过大，影响系统扩展性
2.无法支持除了mapreduce以外的计算框架，如spark，storm等。

生态体系架构
在这里插入图片描述

2.2 hadoop2.x
构成：
分三部分：hdfs、mapreduce、yarn
hdfs：采用NN Federation（联邦）机制（后续会有详细解释），以及ha（高可用）
mapreduce：运行在yarn上的mapreduce，离线计算，基于磁盘I/O计算。
yarn：分布式资源管理框架，负责集群资源的管理和调度

生态体系架构
在这里插入图片描述

2.3 hadoop2.x 对1.0的优化

1.单点故障问题的优化
hadoop1.0的NameNode只有一个节点，一旦出现问题将导致整个集群瘫痪不能使用，对于这些hadoop2.0提出了HDFS Federation，它让多个NameNode（2.x实际暂时只支持两个,3.x版本才真正实现了多NameNode）分管不同的目录进而实现访问隔离和横向扩展，两个NameNode分为Active和Standbay状态，当Active状态的NameNode主现了问题可以配置成自动切换成Standbay的那个NameNode。同时Namenode的高可用要求一个主namenode和备的nnamenode要保持实时同步，主nn服务将元数据信息存储到内存中，那么备机NN服务也要同步把元信息存储到内存中。

2.扩展性问题的优化
将JobTracker中的资源管理和作业控制分开，分别由ResourceManager（负责所有应用程序的资源分配）和ApplicationMaster（负责管理一个应用程序）实现，即引入了资源管理框架Yarn,从而使MR在扩展性和多框架支持等方面的不足得到了很大提升。

3.只支持MR计算框架问题优化
yarn作为Hadoop2.0中的资源管理系统，它是一个通用的资源管理模块，不仅仅只是对MR一种框架，也可以在上面运行其他框架，如Tez、Spark、Storm等