hadoop 版本为2.2.0, 伪分布式运行
1. 部署hadoop集群环境,可以设置为伪分布式运行
(1)安装java jdk, 可以直接下载至 /opt/java目录下完成安装(/opt 用于第三方软件,且没有依赖,可以随时删除)
(2)修改 /etc/profile。添加JAVA_HOME,以及修改PATH
(3)下载解压安装包,直接解压到/opt/hadoop 目录下完成安装
(4)修改配置文件,添加 JAVA_HOME, 并注意端口的设置(参考网络)
(5)修改/etc/profile, 添加HADOOP_HOME, 并修改PATH
(6)运行 $HADOOP_HOME/bin/hdfs namenode -format 格式化namenode
(7)执行$HADOOP_HOME/sbin/start-dfs.sh 启动namenode和datanode,用jps查看是否启动成功,注意hostname设置被/etc/hosts 解析以及端口设置,防火墙关闭
(8)执行 $HADOOP_HOME/sbin/start-yarn.sh
2. 编写 java程序(参看网络)
注意不要有包名
3. 编译
$ javac -classpath $HADOOP_HOME/share/hadoop/common/hadoop-common-2.2.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.2.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$HADOOP_HOME/share/hadoop/mapreduce/lib/hadoop-annotations-2.2.0.jar -d wordcount_classes WordCount.java
4. 打包成jar
$ jar -cvf wordcount.jar -C wordcount_classes/ .
5.运行
hadoop jar /home/hadoop/myprogram/wordcount.jar WordCount /app/word_count/input/inputfile /app/word_count/output