1 组成
由HDFS和MapReduce组成
1.1 HDFS
HDFS是一个master/slave结构
Master上只运行一个NameNode
每一个slave上运行一个DataNode
Namenode保存着整个文件系统的名字空间和所有数据库映射的映像
1.2 MapReduce
Map,把一组数据一对一的映射为另外一组数据
Reduce,对一组数据进行规约
映射和规约的规则都有一个函数指定
一个Map/Reduce就是一个作业,map以完全并行的方式处理作业,框架会对输出先进行排序,然后把结果发给Reduce任务。
Map/Reduce框架由一个单独的Master JobTracker和每个节点上的Slave JobTracker组成。Master负责监控调度,Slave负责执行
应用程序至少应该指明输入/输出的位置(路径),并通过实现合适的接口或抽象类提供map和reduce函数。再加上其他作业的参数,就构成了作业配置(jobconfiguration)。然后,Hadoop的 job client提交作业(jar包/可执行程序等)和配置信息给JobTracker,后者负责分发这些软件和配置信息给slave、调度任务并监控它们的执行,同时提供状态和诊断信息给job-client。
2 命令
2.1 DFSshell
动作 | 命令 |
创建一个名为 /foodir 的目录 | bin/hadoop dfs -mkdir /foodir |
创建一个名为 /foodir 的目录 | bin/hadoop dfs -mkdir /foodir |
查看名为 /foodir/myfile.txt 的文件内容 | bin/hadoop dfs -cat /foodir/myfile.txt |
2.2 DFSAdmin
动作 | 命令 |
将集群置于安全模式 | bin/hadoop dfsadmin -safemode enter |
显示Datanode列表 | bin/hadoop dfsadmin -report |
使Datanode节点 datanodename退役 | bin/hadoop dfsadmin -decommission datanodename |