接下来配置hdfs为分布模式,伪分布模式下所有守护进车都运行在同一台计算机下,只需要在单机模式下配置hadoop/conf里服务器的xml文件即可
ubuntu terminal中对文件修改的操作比较繁琐,建议使用直接打开文件配置。
首先在hadoop下新建几个文件夹
~/hadoop$ mkdir tmp
~/hadoop$ mkdir hdfs
~/hadoop$ mkdir hdfs/name
~/hadoop$ mkdir hdfs/data
编辑hadoop/conf 中的三个文件
core-site.xml:
[html] view plaincopy
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
hdfs-site.xml:
[html] view plaincopy
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/hdfs/data</value>
</property>
</configuration>
mapred-site.xml:
[html] view plaincopy
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
遇到的问题:在后面运行中我们可能会遇到一个拒绝链接的问题,只要将localhost改为用户名即可,也可能不会遇到。
格式化HDFS
~$ source /usr/local/hadoop/conf/hadoop-env.sh
~$ hadoop namenode -format
接下来用终端的 cd命令进入hadoop/bin文件执行(/usr/local/hadoop$ cd bin)
start-all.sh开启服务,用来装载守护进程
通过下面的操作来查看服务是否正常,在Hadoop中用于监控集群健康状态的Web界面:
http://localhost:50030/ - Hadoop 管理介面
http://localhost:50060/ - Hadoop Task Tracker 状态
http://localhost:50070/ - Hadoop DFS 状态
用单机模式相同的方法和指令运行wordcount来验证伪分布模式。