本机运行环境系统:Ubuntu12.04.4
已经安装了jdk并且配置了JAVA_HOME
已经安装了SSH
1.配置SSH(前提是已经安装了SSH)
$ssh-keygen -t rsa (密码为空,路径默认)
$cp .ssh/id_rsa.pub .ssh/authorized_keys
2.准备Hadoop运行环境(本机配置的是hadoop-1.2.0)
1)下载hadoop1.2.0版本
$wget https://archive.apache.org/dist/hadoop/core/hadoop-1.2.0/hadoop-1.2.0.tar.gz
2)解压缩hadoop-1.2.0.tar.gz
$tar -xzvf hadoop-1.2.0.tar.gz
3)在所在的用户主目录的.bashrc中追加,本机的hadoop-1.2.0在主目录的Downloads下:
export PATH=/home/angel/Downloads/hadoop-1.2.0/bin:$PATH
4)注销用户,重新登录,便可生效,使用下列命令来查看
$which hadoop
3. 配置Hadoop运行环境
1)hadoop-1.2.0/conf/core-site.xml中添加下列内容(请注意目录)
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/angel/tmp</value> <!--请注意目录-->
</property>
2)hadoop-1.2.0/conf/hdfs-site.xml中添加下列内容
<property>
<name>dfs.name.dir</name>
<value>/home/angel/dfs/filesystem/name</value> <!--请注意目录-->
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/angel/dfs/filesystem/data</value> <!--请注意目录-->
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
3)hadoop-1.2.0/conf/mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>4</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>4</value>
</property>
<property>
<name>mapred.system.dir</name>
<value>/home/angel/mapreduce/system</value> <!--请注意目录-->
</property>
<property>
<name>mapred.local.dir</name>
<value>/home/angel/mapreduce/local</value> <!--请注意目录-->
</property>
4. 格式化名称节点并启动集群,运行下列命令
$hadoop namenode -format
5.启动集群并查看Web管理界面
$start-all.sh (如果报localhost:Error:JAVA_HOME is not set错误,请查看:http://blog.csdn.net/angle7777/article/details/24635407)
$jps (查看启动的进程)
1)访问http://localhost:50030可以查看 JobTracker 的运行状态
2)访问http://localhost:50060可以查看 TaskTracker 的运行状态
3)访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log等
2)访问http://localhost:50060可以查看 TaskTracker 的运行状态
3)访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log等
6.关闭集群
$stop-all.sh