Word Count案例完成过程
- 前期准备
在D盘中创建input和hadoop两个文件夹,并在input文件夹下依次建立inputword文件夹,1.txt。截图如下:
- 环境准备
-
-
- 创建一个maven工程。
-
-
-
-
-
- 在pom.xml文件中加入如下依赖:
- 编写log4j的配置文件log4j.properties
-
-
- 编写程序
-
-
- 创建 “com.atguigu.mapreduce.wordcount”包
- 在包下创建WordCountMapper类,WordCountReducer类,WordCountDriver类。
- 编写WordCountMapper类,截图如下:
- 编写WordCountReducer类,截图如下:
- 编写WordCountDriver类,截图如下:
-
-
- Windows环境下运行测试
-
-
- 运行成功截图:
-
-
-
-
-
- 执行结果截图:
-
-
- Hadoop集群实现
-
-
- 新建一个包” com.atguigu.mapreduce.wordcount2”,同时复制WordCountMapper,WordCountReducer,WordCountDriver 到新建的包中。并运行WordCountDriver。截图如下:
-
-
-
-
-
- 在pom.xml文件中加入如下依赖:
-
-
-
-
-
- 将wordcount2进行打包,将打包好的包放在桌面上,命名为wc.jar。
-
-
-
-
-
- 打开虚拟机后开启集群,将wc.jar拖入hadoop3.1.4文件夹中。
-
-
-
-
-
- 在HDFS中创建input文件夹,并将windows中的1910224103.txt上传到此文件夹。
-
-
-
-
-
- 打开集群查看,显示如下:
-
-
-
-
-
- 在终端输入如下命令,并在yarn监控页面检查运行情况,截图如下:
-
-
-
-
-
- 刷新集群,打开output文件夹查看结果,截图如下:
-
-