1.hadoop的两大核心:hdfs 和mapReduce
hdfs:实现对分布式存储的底层支持
mapReduce:实现对分布式并行任务的程序支持
2.hdfs的体系结构
一个hdfs集群是由一个namenode 和若干个datanode组成的
namenode:作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作
datanode:管理存储的数据
namenode是所有hdfs元数据的管理者,用户数据永远不会经过namenode
3.mapReduce的体系结构
mapReduce框架是由一个单独运行在主节点上的jobTracker和运行在每个集群从节点
上的taskTracker共同组成的
主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上,主节点监
控它们的执行情况,并且重新执行之前失败的任务,从节点只负责由主节点指派的任务
4.hdfs和mapReduce共同组成了hadoop分布式系统体系结构的核心,hdfs在集群上
实现了分布式文件系统,mapReduce在集群上实现了分布式计算和任务处理
5.hdfs文件的存储采用的是一主(namenode)多备(datanode)的方式
6.HBase的体系结构
HBase主要有3部分构成:
1.HBaseMaster:HBase主服务器:通过领导选举算法确保只有唯一的主服务器是活跃的
2.HRegionServer:HBase域服务器
3.HBaseClient:HBase客户端