Hadoop生态圈
-
概念:由apache基金会所开发的分布式系统基础架构。Google在大数据三遍论文是Hadoop的思想之源
- GFS—>HDFS
- MAP-Reduce—>MR
- BigTable—>HBase
-
版本:Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
- Apache版本最原始(最基础)的版本,对于入门学习最好。
- Cloudera在大型互联网企业中用的较多。
- Hortonworks文档较好。
-
优势:高可靠性、高扩展性、高效性、高容错性
-
Hadoop组成:
- HDFS(Hadoop Distributed File System)的架构概述
- NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表所在的DataNode
- DataNode(dn):本地文件系统存储文件块数据,以及块数据的校验和。
- Secondary NameNode(2nn)用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照
- YARN架构概述
- ResourceManager(RM):处理客户端请求、监控NodeManager、启动或监控ApplicationMaster、资源的分配与调度
- NodeManager(NM):管理单个节点上的资源、处理来ResourceManager的命令、处理来自ApplicationMaster的命令
- ApplicationMaster(AM):负责数据的切分、为应用程序申请资源并分配给内容 的任务、任务的监控与容错
- Container:YARN中的资源抽象,它封装了某个节点上的多维度资源如内存、CPU、磁盘、网络
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FnTb3iyy-1602563809227)(\img\1602235158108.png)]
- HDFS(Hadoop Distributed File System)的架构概述
-
MapReduce架构概述
- MapReduce将计算过程分为两个阶段:Map阶段并行处理输入数据、Reduce阶段对Map结果进行汇总