Hadoop综合大作业

要求

1.将待分析的文件(不少于10000英文单词)上传到HDFS
2.调用MapReduce对文件中各个单词出现的次数进行统计
3.将统计结果下载本地。
4.写一篇博客描述你的分析过程和分析结果。

执行过程

1.我们需要先启动Hadoop,执行如下命令。启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程:
在这里插入图片描述
成功启动后,可以访问 Web 界面 http://localhost:9870 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。
在这里插入图片描述
2.上传文件
在这里插入图片描述
3.打开eclipse进行配置,在上方找到Window-Preferences,点击Hadoop Map/Reduce,填入Hadoop的安装地址/usr/local/hadoop。
在这里插入图片描述
4.接下来找到Window菜单下的Open Perspective,点击Other,切换为Map/Reduce开发视图。
在这里插入图片描述
5.建立与Hadoop集群的连接,右键Map/Reduce Locations 面板,点击New Hadoop Location,General选项面板中的设置要与Hadoop的配置一致。
在这里插入图片描述
在这里插入图片描述
6.在Eclipse中创建MapReduce项目
(1)在File菜单中,点击New Project,选择Map/Reduce Project后,点击Next,填写Project name后,点击Finish则创建好了项目。
在这里插入图片描述
在这里插入图片描述
(2)刷新一下后,右键刚创建的WordCount项目,选择New Class,填写Package和Name。
在这里插入图片描述
(3)刷新后,此时在左侧就能够看到刚刚创建的WordCount.java文件,将以下代码复制到该文件中。
在这里插入图片描述
7.运行WordCount.java项目,运行后左侧会出现output2文件夹,里面则有统计单词重复结果,查看运行结果。
在这里插入图片描述
在这里插入图片描述

8.在终端输入命令将统计结果下载到本地。
在这里插入图片描述
9.查看导出结果文件。

源代码

在这里插入图片描述
在这里插入图片描述

导入与导出

导入

在这里插入图片描述

导出

在这里插入图片描述

导出文件结果

在这里插入图片描述

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值