先来看看hadoop的大体架构是如何,主要分为HDFS以及MapRedure。
HDFS的架构
主从结构
主节点,只有一个:namenode
从节点,有很多个:datanodes
namenode负责:
接收用户的请求
维护文件系统的目录结构
管理文件与block之间的关系,block于datanode之间的关系
datanodes负责:
存储文件
文件分成多个block存储在磁盘上
保证数据安全,建立多个副本
MapReduce的架构
主从结构
主节点,只有一个:JobTracker
从节点,有很多个:TaskTrackers
JobTracker负责:
接收客户提交的计算任务
把计算任务分给TaskTrackers执行
监控TaskTrackers的执行情况
TaskTrackers负责:
执行JobTracker分配的任务
Hadoop特点扩容能力:处理数据级别容易变更;成本低:开源,普通服务器;高效率:分发任并行务;可靠性,多搞副本。Hadoop这些特点总结来源于分布式这个条件。
目前来看Hadoop部署方式大概有:本地模式、集群模式、伪分布模式。下面我就用我自己的本本搭建一个伪分布。当前系统系统:CentOS-6.5-64bit,使用软件:jdk-6u24,hadoop-1.1.2,hadoop-1.1.2.tar.gz。