参考:http://www.linuxidc.com/Linux/2012-02/53927.htm
按照上文配置在Ubuntu安装Hadoop,除了一些小细节出现的问题外,没有大的问题。
下载:http://mirrors.cnnic.cn/apache/hadoop/common/,我下载1.0.4版本。配置和0.21.x没有区别。
1、 安装Ubuntu
我安装的是最新Ubuntu12.10。正常安装即可。
2、 安装jdk包。
可以装openjdk-6-jdk,但是不要用openjdk-6-jdk-lesshead,安装后找下有没有tools.jar,不然导致后面的开发无法进行。
sudoapt-get install openjdk-6-jdk
3、 配置openssh
Openssh用无密码配置即可。
4、 配置hadoop
解压tar文件,注意以下两个步骤:
1)配置hadoop-env.sh,设置真正的java环境
2)只是简单测试,只需配置,conf/core-site.xml,conf/mapred-site.xml,conf/hdfs-site.xml
core-site.xml,配置Common组件的属性
Mapred-site.xml 配置map-reduce组件的属性
hdfs-site.xml 指定name镜像文件存放目录,如不指定则 ,默认为core-site中配置的tmp目录 。
其中,dfs.replication表示数据节点冗余备份的数量,原文是2,但是我是做测试用的伪分布,所有节点都放在1台机器上,我网上看伪分布只能设置为1。确实如果安装文章的设置运行有问题,datanode无法启动。我改为:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3)bin/hadoop namenode –format
显示success则就成功。
4)bin/start-all.sh
5、 启动成功后,可以用java命令jps查看进程状态。如果没有jps没有,是java安装的问题,但不知道是否影响hadoop运行。
除了jps,还可以用
hadoop dfsadmin –report
如果显示,Datanodesavailable: 0 (0 total, 0 dead),那Datanodes还没有起来哦。另外,http://localhost:50030查看HDFS 状态, http://localhost:50070 可以查看jobtracker状态。初次运行,可以很多原因导致namenode和datanode没起来,学会查看logs文件。建议每次启动前,把之前logs删了,然后启动看有没有有问题。最后一切成功非常有成就感。