要求
1.将待分析的文件(不少于10000英文单词)上传到HDFS
2.调用MapReduce对文件中各个单词出现的次数进行统计
3.将统计结果下载本地。
4.写一篇博客描述你的分析过程和分析结果。
执行过程
1.我们需要先启动Hadoop,执行如下命令。启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程:
成功启动后,可以访问 Web 界面 http://localhost:9870 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。
2.上传文件
3.打开eclipse进行配置,在上方找到Window-Preferences,点击Hadoop Map/Reduce,填入Hadoop的安装地址/usr/local/hadoop。
4.接下来找到Window菜单下的Open Perspective,点击Other,切换为Map/Reduce开发视图。
5.建立与Hadoop集群的连接,右键Map/Reduce Locations 面板,点击New Hadoop Location,General选项面板中的设置要与Hadoop的配置一致。
6.在Eclipse中创建MapReduce项目
(1)在File菜单中,点击New Project,选择Map/Reduce Project后,点击Next,填写Project name后,点击Finish则创建好了项目。
(2)刷新一下后,右键刚创建的WordCount项目,选择New Class,填写Package和Name。
(3)刷新后,此时在左侧就能够看到刚刚创建的WordCount.java文件,将以下代码复制到该文件中。
7.运行WordCount.java项目,运行后左侧会出现output2文件夹,里面则有统计单词重复结果,查看运行结果。
8.在终端输入命令将统计结果下载到本地。
9.查看导出结果文件。
源代码