使用MapReduce开发WordCount
1)在pom.xml中添加mapreduce的依赖
org.apache.hadoop
hadoop-mapreduce-client-app
${hadoop.version}
编写代码,注意要放在main下,不然一会打包会失败
下一步,打开本地cmd,打包一下
先进入这个工程的文件夹下 打包的命令为 mvn clean package -DskipTests
如图,打包成功
接下来,我们打开虚拟机,链接xshell,并启动hadoop
将刚才打包好的jar包上传到虚拟机上,包括我们提前编写好的测试文件(WordCount.txt)
然后再将lib目录下的WordCount.txt文件上传到hdfs的/input目录下
命令为hdfs dfs -put /home/hadoop/installpkgs/lib/WordCount.txt /input
然后运行我们提前打好的包(解析txt文件,将同类单词出现的次数显示出来),然后从/input目录下解析到hdfs的/output下
命令为 hadoop jar /home/hadoop/installpkgs/lib/hadoop-hdfs-1.0-SNAPSHOT.jar com.hadoop.hadfs.WordCountApp /input /output
如图,生成文件名为part-r-00000
接下来我们查看一下,命令为hdfs dfs -text /output/part-r-00000
测试成功
这是我们编写的txt文件
所以,测试成功,hello出现了3次,world出现了3次