Hadoop介绍
Hadoop 是Apache基金会开发的分布式系统基础架构,主要解决海量的数据存储和分析计算问题。
Hadoop优势
- 高可靠性
Hadoop 底层维护多个数据副本,即使当某个副本出现故障,也不会导致数据丢失 - 搞扩展性
集群间分配任务数据 - 高效性
在MapReduce的思想下,Hadoop是并行运行的。 - 高容错性
Hadoop组成
在hadoop1.x,hadoop中的MapReduce 同时处理义务逻辑运算和资源调配工作。在hadoop2.x,增加了yarn,负责资源的调度,MapReduce负责运算
HDFS架构
- Namenode(nn):负责管理HDFS的名称空间,配置副本策略,管理数据块映射信息,处理客户端读写
- Datanode:负责执行实际操作,(1)存储实际的数据块 (2)执行数据的读写操作
- Client(客户端):负责文件切分,与Namenode 交互,获取文件的位置,与Datanode 交互
- Secondary Namenode(2nn): 当Namenode挂掉时,并不能马上为Namenode 提供服务,(1)辅助Namenode,分担工作量,定期合并Fsimage和Edits并推给Namenode。
HDFS 文件块大小
hdfs中的文件在物理上是分块存储的,hadoop2.x 是128M,老版本是64M
YARN架构
MapReduce 架构
MapReduce计算过程分为两个过程:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总