这里假定已经安装好了hadoop的环境,在Linux下运行hadoop命令能够正常执行。
首字母统计程序为InitialCount.java,首字母出现的次数用加号表示,若出现次数少于3次则不显示
使用了ubunt16.04系统, hadoop版本1.0.4
1.格式化HDFS
若是首次安装Hadoop,先启动Hadoop到相关服务,格式化namenode,secondarynamenode,tasktracker
~$ source /usr/local/hadoop/conf/hadoop-env.sh
~$ hadoop namenode -format
(注意:第一次安装hadoop集群的时候,需要运行hadoopnamenode -format格式化文件系统,初始化一些目录和文件。后面每次启动hadoop集群的时候,就不需要每次运行hadoopnamenode -format。除非不得已,否则不要轻易格式化文件系统,格式化文件系统会建立新的dfs name dir目录,造成该目录下之前数据的丢失。)
2.启动Hadoop
执行start-all.sh来启动所有服务,包括namenode,datanode,start-all.sh脚本用来装载守护进程。也可以单独启动与关闭。
sean@ubuntu:~$ cd /usr/local/hadoop/bin
sean@ubuntu:/usr/local/hadoop/bin$ start-all.sh
在hadoop目录下用Java的jps命令列出所有的守护进程来验证安装成功