Hadoop发展与核心架构

Hadoop

Hadoop的发展

1998年9月4日,Google公司在美国硅谷成立。正如大家所知,它是一家做搜索引擎起家的公司。一位名叫Doug Cutting的美国工程师,迷上了搜索引擎。他做了一个用于文本搜索的函数库(姑且理解为软件的功能组件),命名为Lucene。后来又升级做出修改版Nutch。产生了很大影响力。随着时间的推移,无论是Google还是Nutch,都面临搜索对象“体积”不断增大的问题。
在这里插入图片描述
在这个过程中,Google也确实找到了不少好办法,并且无私地分享了出来。

2003年,Google发表了一篇技术学术论文Google File System,公开介绍了自己的谷歌文件系统GFS(Google File System)。这是Google公司为了存储海量搜索数据而设计的专用文件系统。
第二年,也就是2004年,Doug Cutting基于Google的GFS论文,实现了分布式文件存储系统,并将它命名为NDFS(Nutch Distributed File System)
在这里插入图片描述
2004年,Google又发表了一篇技术学术论文MapReduce,介绍自己的MapReduce编程模型。这个编程模型,用于大规模数据集(大于1TB)的并行分析运算。
第二年(2005年),Doug Cutting又基于MapReduce,在Nutch搜索引擎实现了该功能。
在这里插入图片描述

2006年,Yahoo(雅虎)公司 招安了Doug Cutting。加盟Yahoo之后,Doug Cutting将NDFS和MapReduce进行了升级改造,并重新命名为Hadoop(NDFS也改名为HDFS,Hadoop Distributed File System)。这个,就是后来大名鼎鼎的大数据框架系统——Hadoop的由来。而Doug Cutting,则被人们称为Hadoop之父。Hadoop这个名字,实际上是Doug Cutting他儿子的黄色玩具大象的名字。所以,Hadoop的Logo,就是一只奔跑的黄色大象。
在这里插入图片描述
2006年,Google又发论文BIg table。这次,它们介绍了自己的BigTable。这是一种分布式数据存储系统,一种用来处理海量数据的非关系型数据库。

Doug Cutting当然没有放过,在自己的hadoop系统里面,引入了BigTable,并命名为HBase。
在这里插入图片描述
,反正就是紧跟Google时代步伐,你出什么,我学什么。所以,Hadoop的核心部分,基本上都有Google的影子。
在这里插入图片描述
2008年1月,Hadoop成功上位,正式成为Apache基金会的顶级项目。

Hadoop的核心架构

Hadoop的核心,说白了,就是HDFS和MapReduce。HDFS为海量数据提供了存储,而MapReduce为海量数据提供了计算框架。
在这里插入图片描述

HDFS

整个HDFS有三个重要角色:NameNode(名称节点)、DataNode(数据节点)和Client(客户机)
在这里插入图片描述
NameNode:是Master节点(主节点),可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。

DataNode:是Slave节点(从节点),是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。

Client:切分文件;访问HDFS;与NameNode交互,获得文件位置信息;与DataNode交互,读取和写入数据。
Block(块)的概念:Block是HDFS中的基本读写单元;HDFS中的文件都是被切割为block(块)进行存储的;这些块被复制到多个DataNode中;块的大小(通常为64MB)和复制的块数量在创建文件时由Client决定。

HDFS具体读写流程
写入流程:
在这里插入图片描述

  1. 用户向Client(客户机)提出请求。例如,需要写入200MB的数据。
  2. Client制定计划:将数据按照64MB为块,进行切割;所有的块都保存三份。
  3. Client将大文件切分成块(block)。
  4. 针对第一个块,Client告诉NameNode(主控节点),请帮助我,将64MB的块复制三份。
  5. NameNode告诉Client三个DataNode(数据节点)的地址,并且将它们根据到Client的距离,进行了排序。
  6. Client把数据和清单发给第一个DataNode。
  7. 第一个DataNode将数据复制给第二个DataNode。
  8. 第二个DataNode将数据复制给第三个DataNode。
  9. 如果某一个块的所有数据都已写入,就会向NameNode反馈已完成。
  10. 对第二个Block,也进行相同的操作。
  11. 所有Block都完成后,关闭文件。NameNode会将数据持久化到磁盘上。

读取流程:
在这里插入图片描述
读取流程:

  1. 用户向Client提出读取请求。
  2. Client向NameNode请求这个文件的所有信息。
  3. NameNode将给Client这个文件的块列表,以及存储各个块的数据节点清单(按照和客户端的距离排序)。
  4. Client从距离最近的数据节点下载所需的块。

MapReduce

MapReduce其实是一种编程模型。这个模型的核心步骤主要分两部分:Map(映射)和Reduce(归约)

当你向MapReduce框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map任务,然后分配到不同的节点上去执行,每一个Map任务处理输入数据中的一部分,当Map任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。
在这里插入图片描述
例子:统计词频
在这里插入图片描述
上图是一个统计词频的任务。

  1. Hadoop将输入数据切成若干个分片,并将每个split(分割)交给一个map task(Map任务)处理。
  2. Mapping之后,相当于得出这个task里面,每个词以及它出现的次数。
  3. shuffle(拖移)将相同的词放在一起,并对它们进行排序,分成若干个分片。
  4. 根据这些分片,进行reduce(归约)。
  5. 统计出reduce task的结果,输出到文件。

MapReduce这个框架模型,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
在MapReduce里,为了完成上面这些过程,需要两个角色:JobTracker和TaskTracker。JobTracker用于调度和管理其它的TaskTracker。JobTracker可以运行于集群中任一台计算机上。TaskTracker 负责执行任务,必须运行于 DataNode 上。
在这里插入图片描述2.0版本中,在HDFS之上,增加了YARN(资源管理框架)层。它是一个资源管理模块,为各类应用程序提供资源管理和调度。
在这里插入图片描述

Hadoop的生态圈

经过时间的累积,Hadoop已经从最开始的两三个组件,发展成一个拥有20多个部件的生态系统。
在这里插入图片描述
在整个Hadoop架构中,计算框架起到承上启下的作用,一方面可以操作HDFS中的数据,另一方面可以被封装,提供Hive、Pig这样的上层组件的调用。

HBase:来源于Google的BigTable;是一个高可靠性、高性能、面向列、可伸缩的分布式数据库。

Hive:是一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Pig:是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

ZooKeeper:来源于Google的Chubby;它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度。

Ambari:Hadoop管理工具,可以快捷地监控、部署、管理集群。

Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。

Mahout:一个可扩展的机器学习和数据挖掘库。
在这里插入图片描述
Hadoop的应用非常广泛,包括:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等,都可以使用它进行部署。

Spark

Spark是在Matei Zaharia的博士论文《An Architecture for Fast and General Data Processing on Large Cluster》(大型集群上 的快速和通过数据处理架构)的基础上发展而来。
在这里插入图片描述
Spark同样是Apache软件基金会的顶级项目。它可以理解为在Hadoop基础上的一种改进。

它是加州大学伯克利分校AMP实验室所开源的类Hadoop MapReduce的通用并行框架。相对比Hadoop,它可以说是青出于蓝而胜于蓝。

先声明

  1. Hadoop2.0中含有三个模块:HDFS、Yarn以及MapReduce
  2. Spark不会取代Hadoop,而是会取代MapReduce

所以spark和hadoop的对比,更多的指的是spark和MapReduce的对比.前面我们说了,MapReduce是面向磁盘的。因此,受限于磁盘读写性能的约束,MapReduce在处理迭代计算、实时计算、交互式数据查询等方面并不高效。但是,这些计算却在图计算、数据挖掘和机器学习等相关应用领域中非常常见。而Spark是面向内存的。这使得Spark能够为多个不同数据源的数据提供近乎实时的处理性能,适用于需要多次操作特定数据集的应用场景。
Spark和MapReduce的具体区别如下:

  1. MapReduce是基于磁盘的,而Spark是基于内存的,但是并不是说Spark的shuffle不会写磁盘,Spark的Shuffle过程和MapReduce类似,仍然会写磁盘,只是Spark在使用内存方面比MapReduce用的更好点,特别是在迭代计算的应用中,Spark可以显示的将任何的RDD缓存在内存中,使得Spark的速度远远超过MapReduce
  2. Spark的API比MapReduce丰富、灵活多了,所以Spark的应用比MapReduce更加的简洁
  3. Spark的任务是线程级别的,而MapReduce默认情况下的Task是是JVM级别的,启动一个JVM肯定比启动一个线程要慢很多,这也是MapReduce慢的原因
  4. MapReduce相对来说更加稳定点,对内存要求不高,如果你的的应用对时间要求不高,或者你的内存资源不够,这个时候可以使用MapReduce

在相同的实验环境下处理相同的数据,若在内存中运行,那么Spark要比MapReduce快100倍。其它方面,例如处理迭代运算、计算数据分析类报表、排序等,Spark都比MapReduce快很多。,因此Spark可以提供超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。

此外,Spark在易用性、通用性等方面,也比Hadoop更强。

所以,Spark的风头,已经盖过了Hadoop。

Storm

Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值