(1).修改hadoop的核心配置文件core-site.xml.主要是配置HDFS的地址和端口号。
<property>
<name>fs.default.name</name> #HDFS NameNode的ip和端口
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> #HDFS tmp dir
<value>/usr/local/hadoop/hadoop-1.2.1/tmp</value>
</property>
(2).配置HDFS配置文件hdfs-site.xml,主要是配置replication
<configuration>
<property>
<name>dfs.replication</name> #HDFS的备份数量,这里单机,只有1台机器。
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name> #NameNode存储名字空间及汇报日志位置
<value>/usr/local/hadoop/hadoop-1.2.1/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name> #DataNode存储数据块位置
<value>/usr/local/hadoop/hadoop-1.2.1/hdfs/data</value>
</property>
</configuration>
(3).修改mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name> #jobTracker的IP和端口
<value>localhost:9001</value>
</property>
</configuration>
(4).通过上面的配置,完成了最简单的伪分布式配置
还需在hadoop-1.2.1目录下创建几个目录:
mkdir tmp
mkdir hdfs
mkdir hdfs/data
mkdir hdfs/name
执行hadoop的namenode格式化
4.1hadoop namenode -format
4.2格式化完毕后,启动hadoop.
start-all.sh
4.3.通过jps命令查看输出,确认启动成功。
4082 Jps
3719 Worker
3553 Master
3331 TaskTracker
3190 JobTracker
2800 NameNode
3105 SecondaryNameNode
2961 DataNode
(5).通过WEB页面localhost:50070查看hadoop运行情况。
(6).用新建的伪分布式环境运行wordcount例子.
6.1通过dfs命令创建input目录
hadoop dfs -mkdir input
6.2复制文件
hadoop dfs -copyFromLocal /usr/local/hadoop/hadoop-1.2.1/conf/* input
6.3运行wordcount
hadoop jar hadoop-examples-1.2.1.jar wordcount input output
6.4查看输出结果
hadoop dfs -cat output/*
也可以通过WEB页面查看我们提交的Job.
至此,单机伪分布式环境搭建完成。