Hadoop-2.x版本与Hadoop-1.x除了整体架构上的变化之外,比如HDFS联盟,YARN等,目录结构、配置管理及执行脚本都有了很大的改变,具体哪些地方做了改变还需要通过持续地学习来掌握。在此之前,先学习如何以单机模式和伪分布模式运行Hadoop。
单机模式
默认情况下,Hadoop作为单个Java进程以非分布式模式运行,该模式非常适于用作Debugg。下面展示了Hadoop-2.4.1自带的统计单词数量的例子,在Hadoop的部署目录中新建目录input,并将etc/hadoop中的配置文件复制到新目录中input中,使用bin/Hadoop 的jar命令运行统计单词数量的jar包,将结果输出到output目录中:
[hadoop@hadoophadoop-2.4.1]$ mkdir input
[hadoop@hadoophadoop-2.4.1]$ cp etc/hadoop/*.xml input
[hadoop@hadoophadoop-2.4.1]$ ls input
capacity-scheduler.xml core-site.xml hadoop-policy.xml hdfs-site.xml httpfs-site.xml yarn-site.xml
[hadoop@hadoophadoop-2.4.1]$ bin/hadoop jarshare/hadoop/mapreduce/