Hadoop伪分布式需要配置core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml这四个文件。
1.配置core-site.xml
#打开core-site.xml配置文件
root权限下命令vim $HADOOP_HOME/etc/hadoop/core-site.xml打开文件,用vim不用vi,vi修改配置容易出错。在标签之间添加如下代码:
<property>
<name>hadoop.tmp.dir</name>
<value>/data/tmp/hadoop/tmp</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
2.配置hdfs-site.xml
命令vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml直接打开文件输入i编辑,和上面一样在两个标签中添加如下代码:
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value>
</property>
3.配置mapred-site.xml
命令
cd $HADOOP_HOME/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
打开后在标签中间输入:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
4.配置yarn-site.xml
命令vim $HADOOP_HOME/etc/hadoop/yarn-site.xml
打开后标签间添加如下代码:
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
5.验证hadoop模拟分布集群
命令hdfs namenode -format 格式化hdfs文件系统,然后输入start-dfs.sh启动分布式文件系统,启动成功后浏览器地址栏输入localhost:50070/会有如下界面:
再执行命令start-yarn.sh启动yarn,浏览器输入localhost:8088/,成功后的界面如下如下:
6.测试wordcount
这里我们使用单击版的input文件,命令cd /usr/local/hadoop/,执行./bin/hdfs -dfs -mkdir -p /user/hadoop创建用户目录,接着执行如下命令:
这里我们看到已经成功把input文件夹里的内容上传到hdfs的/user/hadoop/下,接着执行如下命令:
这里虽然报了一个小小的错但是我们也可以看到词频统计已经成功了,如果输入的命令不对就很可能报错,像这样的:
既然已经成功了,执行后的结果也在/user/hadoop/output中,那么此时我们可以使用如下命令来查看:
截图底部我们可以看到统计的结果。
至此,hadoop伪分布式wordcount成功测试。