1.是ftp工具,将email_log.txt文件上传到centos服务器的/opt目录中
2.使用命令 hadoop fs -mkdir /park02 在hdfs中创建/park02文件夹,如果有的话,就不需要创建
3.使用命令 hadoop fs -put /opt/email_log.txt /park02 上传email_log.txt文件到/park02中
4.查看hdfs中是否上传成功 hadoop fs -ls /park02
5.去 $HADOOP_HOME/share/hadoop/mapreduce/查看 官方示例程序包:hadoop-mapreduce-examples-2.6.4.jar
6.把此jar包下载到本机中,使用压缩工具打开,查看里面是否有wordcount, pi 类
也可以现在官方的hadoop源码 hadoop-2.6.4-src.tar.gz 中hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/WordCount.java类源码
wordcount类 是对输入文件中的单词进行频数统计
pi 类是来估算π的值
7.提交mapreduce任务给集群运行
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordcount /park02/email_log.txt /park02/output
hadoop jar jar路径 jar中的类 类中的参数。
wordcount 类有两个参数 第一个参数是HDFS输入的解析的文件名 第二个参数是执行完以后输出的把执行的结果放在的目录中
8.出现 completed succe