上一篇讲述了大数据基础概述及其特征,本篇就让我们来了解下基于大数据的分布书基础架构hadoop。
一、Hadoop概述
hasoop的名称是由其作者孩子对一个玩具的命名而来。它是由apache开发的一套基于分布式的框架。
官网是这样描述的:
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.
即高可靠、可扩展、分布式计算的开源框架。分布式即意味着它的容错性能较好,且效率较高。
二、Hadoop组成
Hadoop主要三部分组成:
- HDFS(Hadoop distributed file system ,分布式文件系统)
- MapReduce(分布式计算框架)
- Yarn(Yet Another Rsource Negotiator,资源调度系统)
接下来逐一认识吧!
三、HDFS
源自Google发表于2003年的GFS论文,是GFS的克隆版。
扩展性高、容错性强、海量数据存储。
主要是将文件切分成块,然后以多副本形式存储至各个节点上。
数据切分、容错等对用户是透明的。
四、MapReduce
同HDFS一样,也是Google MapReduce的克隆版,扩展性高、容错性强、离线处理海量数据。
五、Yarn
负责整个集群资源的管理和调度。
六、狭义Hadoop和广义Hadoop
狭义:是一个包含上述三个框架的大数据平台
广义:指Hadoop生态系统,其中每个子系统只解决特定领域的问题,小而精的多个系统的集成。