一.环境准备
1.JDK
手动下载jdk并配置环境变量,可参考下文
http://blog.csdn.net/microfhu/article/details/7667393
2.SSH
可以在root下配置SSH无密钥登录,可参考下文
http://blog.csdn.net/budapest/article/details/8022926
二.下载安装
1.可在如下网址下载hadoop-2.6.0.tar.gz
http://archive.apache.org/dist/hadoop/core/stable/
2.将上述压缩包直接拷贝至你想去的目录下,执行tar -zxf hadoop-2.6.0.tar.gz解压缩至当前目录下,即安装成功
三.配置环境
进入hadoop安装的根目录,然后进入/etc/hadoop,编辑里面的5个文件配置hadoop的环境,可直接用文本编辑器gedit打开
1.hadoop-env.sh
在里面添加JAVA_HOME的路径
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_75
2.core-site.xml
在文件末尾添加:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://127.0.0.1:9000</value>
</property>
<property>
<name>hdfs.tmp.dir</name>
<value>/home/hadoop/tmp</value>
</property>
</configuration>
3.mapred-site.xml
在文件末尾添加
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
4.hdfs-site.xml
在文件末尾添加
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
5.yarn-site.xml
在文件末尾添加
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resoucemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
四.运行hadoop
1.第一次运行要格式化hadoop文件系统,命令如下
hdfs namenode -format
如果执行成功,你会在日志中(倒数几行)找到如下成功的提示信息:
common.Storage: Storage directory/home/hduser/hadoop/tmp/hadoop-hduser/dfs/name has been successfully formatted.
2.运行hadoop
执行一下两条指令:
start-dfs.sh
start-yarn.sh
接下来在终端执行jps,如果看到以下5个进程则hadoop正常运行!
4688 NodeManager
4266 SecondaryNameNode
4116 DataNode
4002 NameNode
4413 ResourceManager
此外,也可以在浏览器中输入
http://localhost:50070
http://localhost:8088
能进入相应的页面,同样表示配置成功!
五.测试Hadoop
运行hadoop自带的词频统计的例子
1.在hdfs虚拟文件上创建文件夹input 命令:hdfs dfs -mkdir /input
2. 上传本地文件到hdfs上命令:hdfs dfs -put /usr/local/hadoop/NOTICE.txt /input
3.执行例子,命令如下:
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples- 2.6.0.jar wordcount /input /output
注意:output是自动创建的,执行前不能存在
4.通过浏览器访问HDFS下的output文件夹,打开里面的part-r-00000文件并看到正确结果,则表示wordcount执行成功!
六.停止hadoop
stop-yarn.sh
stop-dfs.sh
可参考下文: