Hadoop发展与核心架构

最新推荐文章于 2024-09-12 10:22:19 发布

DBN114511

最新推荐文章于 2024-09-12 10:22:19 发布

阅读量298

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/DBN114511/article/details/120521715

版权

本文介绍了Hadoop的起源和发展，由Doug Cutting受Google GFS和MapReduce启发创建，最终成为Apache顶级项目。Hadoop的核心架构包括HDFS和MapReduce，HDFS由NameNode、DataNode和Client组成，MapReduce则包含Map和Reduce两个步骤。Hadoop的生态圈包括HBase、Hive、Pig等组件。文章还对比了Hadoop与Spark、MapReduce的区别，强调Spark的内存计算优势和实时处理性能。

摘要由CSDN通过智能技术生成

Hadoop的发展
1998年9月4日，Google公司在美国硅谷成立。正如大家所知，它是一家做搜索引擎起家的公司。一位名叫Doug Cutting的美国工程师，迷上了搜索引擎。他做了一个用于文本搜索的函数库（姑且理解为软件的功能组件），命名为Lucene。后来又升级做出修改版Nutch。产生了很大影响力。随着时间的推移，无论是Google还是Nutch，都面临搜索对象“体积”不断增大的问题。

在这个过程中，Google也确实找到了不少好办法，并且无私地分享了出来。2003年，Google发表了一篇技术学术论文Google File System，公开介绍了自己的谷歌文件系统GFS（Google File System）。这是Google公司为了存储海量搜索数据而设计的专用文件系统。
第二年，也就是2004年，Doug Cutting基于Google的GFS论文，实现了分布式文件存储系统，并将它命名为NDFS（Nutch Distributed File System）
2004年，Google又发表了一篇技术学术论文MapReduce，介绍自己的MapReduce编程模型。这个编程模型，用于大规模数据集（大于1TB）的并行分析运算。
第二年（2005年），Doug Cutting又基于MapReduce，在Nutch搜索引擎实现了该功能。2006年，Yahoo（雅虎）公司招安了Doug Cutting。加盟Yahoo之后，Doug Cutting将NDFS和MapReduce进行了升级改造，并重新命名为Hadoop（NDFS也改名为HDFS，Hadoop Distributed File System）。这个，就是后来大名鼎鼎的大数据框架系统——Hadoop的由来。而Doug Cutting，则被人们称为Hadoop之父。Hadoop这个名字，实际上是Doug Cutting他儿子的黄色玩具大象的名字。所以，Hadoop的Logo，就是一只奔跑的黄色大象。

2006年，Google又发论文BIg table。这次，它们介绍了自己的BigTable。这是一种分布式数据存储系统，一种用来处理海量数据的非关系型数据库。

Doug Cutting当然没有放过，在自己的hadoop系统里面，引入了BigTable，并命名为HBase。反正就是紧跟Google时代步伐，你出什么，我学什么。所以，Hadoop的核心部分，基本上都有Google的影子。

2008年1月，Hadoop成功上位，正式成为Apache基金会的顶级项目。

Hadoop的核心架构

Hadoop的核心，说白了，就是HDFS和MapReduce。HDFS为海量数据提供了存储，而MapReduce为海量数据提供了计算框架。

HDFS

整个HDFS有三个重要角色：NameNode（名称节点）、DataNode（数据节点）和Client（客户机）。在这里插入图片描述

NameNode：是Master节点（主节点），可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。

DataNode：是Slave节点（从节点），是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。

Client：切分文件；访问HDFS；与NameNode交互，获得文件位置信息；与DataNode交互，读取和写入数据。
Block（块）的概念：Block是HDFS中的基本读写单元；HDFS中的文件都是被切割为block（块）进行存储的；这些块被复制到多个DataNode中；块的大小（通常为64MB）和复制的块数量在创建文件时由Client决定。

HDFS具体读写流程
写入流程：
在这里插入图片描述

用户向Client（客户机）提出请求。例如，需要写入200MB的数据。
Client制定计划：将数据按照64MB为块，进行切割；所有的块都保存三份。
Client将大文件切分成块（block）。
针对第一个块，Client告诉NameNode（主控节点），请帮助我，将64MB的块复制三份。
NameNode告诉Client三个DataNode（数据节点）的地址，并且将它们根据到Client的距离，进行了排序。
Client把数据和清单发给第一个DataNode。
第一个DataNode将数据复制给第二个DataNode。
第二个DataNode将数据复制给第三个DataNode。
如果某一个块的所有数据都已写入，就会向NameNode反馈已完成。
对第二个Block，也进行相同的操作。
所有Block都完成后，关闭文件。NameNode会将数据持久化到磁盘上。
读取流程：
在这里插入图片描述

读取流程：

用户向Client提出读取请求。
Client向NameNode请求这个文件的所有信息。
NameNode将给Client这个文件的块列表，以及存储各个块的数据节点清单（按照和客户端的距离排序）。
Client从距离最近的数据节点下载所需的块。
MapReduce
MapReduce其实是一种编程模型。这个模型的核心步骤主要分两部分：Map（映射）和Reduce（归约）。

当你向MapReduce框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map任务，然后分配到不同的节点上去执行，每一个Map任务处理输入数据中的一部分，当Map任务完成后，它会生成一些中间文件，这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。
在这里插入图片描述

例子：统计词频

在这里插入图片描述

上图是一个统计词频的任务。

Hadoop将输入数据切成若干个分片，并将每个split（分割）交给一个map task（Map任务）处理。
Mapping之后，相当于得出这个task里面，每个词以及它出现的次数。
shuffle（拖移）将相同的词放在一起，并对它们进行排序，分成若干个分片。
根据这些分片，进行reduce（归约）。
统计出reduce task的结果，输出到文件。
MapReduce这个框架模型，极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。
在MapReduce里，为了完成上面这些过程，需要两个角色：JobTracker和TaskTracker。JobTracker用于调度和管理其它的TaskTracker。JobTracker可以运行于集群中任一台计算机上。TaskTracker 负责执行任务，必须运行于 DataNode 上。
在这里插入图片描述

2.0版本中，在HDFS之上，增加了YARN（资源管理框架）层。它是一个资源管理模块，为各类应用程序提供资源管理和调度。

在这里插入图片描述

Hadoop的生态圈

经过时间的累积，Hadoop已经从最开始的两三个组件，发展成一个拥有20多个部件的生态系统

在这里插入图片描述

在整个Hadoop架构中，计算框架起到承上启下的作用，一方面可以操作HDFS中的数据，另一方面可以被封装，提供Hive、Pig这样的上层组件的调用。

HBase：来源于Google的BigTable；是一个高可靠性、高性能、面向列、可伸缩的分布式数据库。

Hive：是一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Pig：是一个基于Hadoop的大规模数据分析工具，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

ZooKeeper：来源于Google的Chubby；它主要是用来解决分布式应用中经常遇到的一些数据管理问题，简化分布式应用协调及其管理的难度。

Ambari：Hadoop管理工具，可以快捷地监控、部署、管理集群。

Sqoop：用于在Hadoop与传统的数据库间进行数据的传递。

Mahout：一个可扩展的机器学习和数据挖掘库。
在这里插入图片描述

Hadoop的应用非常广泛，包括：搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等，都可以使用它进行部署。

Spark
Spark是在Matei Zaharia的博士论文《An Architecture for Fast and General Data Processing on Large Cluster》(大型集群上的快速和通过数据处理架构)的基础上发展而来。
在这里插入图片描述

Spark同样是Apache软件基金会的顶级项目。它可以理解为在Hadoop基础上的一种改进。

它是加州大学伯克利分校AMP实验室所开源的类Hadoop MapReduce的通用并行框架。相对比Hadoop，它可以说是青出于蓝而胜于蓝。

先声明

Hadoop2.0中含有三个模块：HDFS、Yarn以及MapReduce
Spark不会取代Hadoop，而是会取代MapReduce
所以spark和hadoop的对比,更多的指的是spark和MapReduce的对比.前面我们说了，MapReduce是面向磁盘的。因此，受限于磁盘读写性能的约束，MapReduce在处理迭代计算、实时计算、交互式数据查询等方面并不高效。但是，这些计算却在图计算、数据挖掘和机器学习等相关应用领域中非常常见。而Spark是面向内存的。这使得Spark能够为多个不同数据源的数据提供近乎实时的处理性能，适用于需要多次操作特定数据集的应用场景。
Spark和MapReduce的具体区别如下：

MapReduce是基于磁盘的，而Spark是基于内存的，但是并不是说Spark的shuffle不会写磁盘，Spark的Shuffle过程和MapReduce类似，仍然会写磁盘，只是Spark在使用内存方面比MapReduce用的更好点，特别是在迭代计算的应用中，Spark可以显示的将任何的RDD缓存在内存中，使得Spark的速度远远超过MapReduce
Spark的API比MapReduce丰富、灵活多了，所以Spark的应用比MapReduce更加的简洁
Spark的任务是线程级别的，而MapReduce默认情况下的Task是是JVM级别的，启动一个JVM肯定比启动一个线程要慢很多，这也是MapReduce慢的原因
MapReduce相对来说更加稳定点，对内存要求不高，如果你的的应用对时间要求不高，或者你的内存资源不够，这个时候可以使用MapReduce
在相同的实验环境下处理相同的数据，若在内存中运行，那么Spark要比MapReduce快100倍。其它方面，例如处理迭代运算、计算数据分析类报表、排序等，Spark都比MapReduce快很多。，因此Spark可以提供超过Hadoop100倍的运算速度。但是，由于内存断电后会丢失数据，Spark不能用于处理需要长期保存的数据。

此外，Spark在易用性、通用性等方面，也比Hadoop更强。

所以，Spark的风头，已经盖过了Hadoop。

Storm
Storm是Twitter主推的分布式计算系统，它由BackType团队开发，是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性，可以实时的处理大数据流。不同于Hadoop和Spark，Storm不进行数据的收集和存储工作，它直接通过网络实时的接受数据并且实时的处理数据，然后直接通过网络实时的传回结果。Hadoop，Spark和Storm是目前最重要的三大分布式计算系统，Hadoop常用于离线的复杂的大数据处理，Spark常用于离线的快速的大数据处理，而Storm常用于在线的实时的大数据处理。