以Hadoop自带的wordcount为例,说明如何在Windows环境下,统计若干文件中的单词出现次数。
上传要统计的文件。假设在计算机本地有三个文件,f1.txt,f2.txt,f3.txt,这个三个文件位于E:/myfile文件夹下,需要把myfile整个文件上传到HDFS上。本例目的就是统计存放到HDFS中的f1,f2,f3这三个文件中的单词个数。
1、需要现在HDFS上创建一个文件夹,假设这个文件夹名字为test_dir。在HDFS上创建test_dir文件夹:
hadoop dfs -mkdir /test_dir
2、把本地的myfile文件夹全部上传到HDFS中的test_dir下:
hadoop dfs -put E:/hadoop/myfile /test_dir
此时HDFS中test_dir文件层次结构:
hdfs dfs -ls -R /test_dir
如图:
3、使用Hadoop自带的hadoop-mapreduce-examples-2.8.3.jar程序包统计myfile目录下f1,f2,f3三个文件的单词数。hadoop-mapreduce-examples-2.8.3.jar位于hadoop-2.8.3\share\hadoop\mapreduce下面。
命令:
hadoop jar E:/hadoop/hadoop