Hadoop:
高可靠性:底层维护多个数据副本
高扩展性:
高效性(MapReduce):
高容错性:自动将失败的任务重新分配。
一、HDFS架构
NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等
DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
二、Yarn
ResourceManager:管理整个集群资源
NodeManager:管理单个结点服务器
ApplicationMaster:管理单个任务运行
Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源。
客户端可以有多个,集群上可以有多个ApplicationMaster,每个NodeManager上可以有多个Container。
三、MapReduce
MapReduce将计算过程分为两个过程,map和reduce。
四、三者关系
Yarn负责资源调度,HDFS是存储框架,MapReduce是查询过程。