一、Hadoop介绍
Hadoop由两部分组成,分别是HDFS和MapReduce。HDFS是分布式存储系统,MapReduce是并行计算框架。
二、HDFS介绍
1、主从机构
主节点,只有一个namenode
从节点,可以有很多个datanode
2、namenode负责:
namenode主要负责管理,对外接受用户的操作请求,对内负责维护文件系统的目录结构,以及管理文件与block块之间的关系,block块与datanode之间的关系。
3、datanode负责:
datanode主要负责文件的存储,文件被分成block块存储在磁盘上,为了保证数据安全,文件会有多个副本。
三、MapReduce介绍
1、主从结构
主节点,只有一个JobTracker
从节点,可以有多个TaskTrackers
2、JobTracker负责:
JobTracker主要负责接收用户提交的计算任务,将计算任务分配给各个TaskTracker去执行,统一监控TaskTrackers的执行情况。
3、TaskTracker负责:
TaskTracker主要负责执行JobTracker分配的计算任务。
拿个一个例子来说明JobTracker和TaskTracker的关系就比如TeamLeader和组员的关系,TeamLeader就好比是JobTracker,组员就好比是TaskTracker。当客户提出需求给TeamLeader,然后TeamLeader将这个需求分别分配给自己的组员们,组员们接到领导分配的任务就可以去各自执行,而在这个过程中TeamLeader一直监控着他手下这些组员完成任务的情况。
四、Hadoop的集群架构
图中Rack表示的是机柜,Rack中的矩形表示单个服务器节点,每个节点通过网线连接,并连接到路由器中,客户端就可以通过网络连接访问了。