第三章 Hadoop模块介绍
3.1 什么是Hadoop?
Hadoop是一个分布式开源框架,支持成千上万个节点,每个节点依靠本地计算和存储。并且允许硬件出现一些问题,即容错(俗称:将硬件产生的相关错误视为常态)。
Hadoop包括4个模块:
(1)Common:为其他三个模块提供工具类,以及一个RPC通讯框架
(2)HDFS:分布式文件系统,负责海量数据的存储。
分布式文件系统:将一个文件切成小文件存储在不同的节点上。
架构:主从架构(Master-Slave)
搭建完成后启动的进程:
主节点:Java进程叫NameNode(1个)
从节点:Java进程叫DataNode(多个)
助理:Java进程叫SecondaryNameNode(分担NameNode的压力)
(3)YARN:集群的资源调度框架,负责集群的资源管理,类似于window操作系统,负责某个软件启动时的资源分配。
架构:主从架构(Master-Slave)
搭建完成后启动的进程:
主节点:Java进程叫ResourceManager,负责统筹资源
从节点:Java进程叫NodeManager
(4)MapReduce:分布式计算框架,只有在有计算任务时才会有相应的进程。