- Hadoop的组成
Hadoop 1.x :Common(辅助工具)、HDFS(数据存储)、MapReduce(计算+资源调度)
-资源调度:管理对应的CPU和内存
Hadoop 2.x :Common(辅助工具)、HDFS(数据存储)、MapReduce(计算)、Yarn(资源调度)
Hadoop 3.x:在组成上没有变化
- HDFS (分布式文件系统)
1.HDFS架构
NameNode(nn):存储文件元数据,如文件名、文件目录结构、文件属性,以及每个文件的块列表和块所在的DataNode等。
DataNode(dn):在本地文件系统存储文件块数据,以及快数据的校验和。
Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
通俗来说,NameNode管理数据都存储在什么位置、DataNode管理具体存储的数据。
- Yarn架构(资源管理器)
ResonanceManager(RM):管理整个集群资源(内存、CPU等)
NodeManager(NM):管理单个节点服务器资源
ApplicationMaster(AM):管理单个任务运行
Container:相当于一台独立的服务器,封装任务运行所需要的资源,如内存、CPU、磁盘、网络等
Tips:
1.客户端可以有多个
2.集群上可以运行多个ApplicationMaster
3.每个NodeManager上可以有多个Container
- MapReduce架构
两个阶段:Map(处理输入数据)和Reduce(对Map结果进行汇总)