Hadoop 简介
Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。作者Doug Cutting 受Google三篇论文的启发,开发了hadoop。
Hadoop 组件
hadoop是一个统称,目前hadoop主要包含三大组件
- hdfs:是一个分布式存储框架,适合海量数据存储
- mapreduce:是一个分布式计算框架,适合海量数据计算
- yarn:是一个资源调度平台,负责给计算框架分配计算资源
下载
目前,hadoop已经演变为大数据计算的代名词,形成了一套完善的大数据计算的生态系统,所以针对hadoop也出现了很多版本。下载链接[Hadoop(http://hadoop.apache.org/releases.html).
分布式存储介绍
- 在分布式存储系统中,分散在不同节点中的数据可能属于同一个文件。
- 为了组织众多的文件,把文件可以放到不同的文件夹中,文件夹可以一级一级的包含。
-集群中不同的节点承担不同的职责。
分布式计算
主从结构:主节点,只有一个: MRAppMaster。从节点,就是具体的task
MRAppMaster负责:
1.接收客户端提交的计算任务
2.把计算任务分给NodeManager的Container中执行,即任务调度。
资源的调度
yarn:主从结构 主节点,最多可以有2个:ResourceManager ;从节点,有很多个: NodeManager。