Hadoop综合大作业

最新推荐文章于 2020-12-20 21:02:03 发布

啵小猿

最新推荐文章于 2020-12-20 21:02:03 发布

阅读量1.2k

点赞数

文章标签： hadoop 大数据 mapreduce

本文链接：https://blog.csdn.net/qq_45234302/article/details/111312014

版权

要求

1.将待分析的文件（不少于10000英文单词）上传到HDFS
2.调用MapReduce对文件中各个单词出现的次数进行统计
3.将统计结果下载本地。
4.写一篇博客描述你的分析过程和分析结果。

执行过程

1.我们需要先启动Hadoop，执行如下命令。启动完成后，可以通过命令 jps 来判断是否成功启动，若成功启动则会列出如下进程:
在这里插入图片描述
成功启动后，可以访问 Web 界面 http://localhost:9870 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。

2.上传文件

3.打开eclipse进行配置，在上方找到Window-Preferences,点击Hadoop Map/Reduce，填入Hadoop的安装地址/usr/local/hadoop。
在这里插入图片描述
4.接下来找到Window菜单下的Open Perspective,点击Other，切换为Map/Reduce开发视图。

5.建立与Hadoop集群的连接，右键Map/Reduce Locations 面板，点击New Hadoop Location,General选项面板中的设置要与Hadoop的配置一致。

6.在Eclipse中创建MapReduce项目
（1）在File菜单中，点击New Project,选择Map/Reduce Project后，点击Next，填写Project name后，点击Finish则创建好了项目。
在这里插入图片描述

（2）刷新一下后，右键刚创建的WordCount项目，选择New Class，填写Package和Name。

（3）刷新后，此时在左侧就能够看到刚刚创建的WordCount.java文件，将以下代码复制到该文件中。

7.运行WordCount.java项目，运行后左侧会出现output2文件夹，里面则有统计单词重复结果，查看运行结果。
在这里插入图片描述