Hadoop伪分布式集群的单词统计

  • 简答题:

项目需求:有一份bigdata.txt文件,请将它上传到大数据平台的HDFS上,然后编写MapReduce算法统计该文件中每一个单词出现的次数。

备注:关键步骤截图,整理成实验报告提交

实验步骤:

  1. 下载对应的bigdata.txt文件到本机合适的位置;

  1. 打开VMware中自己构建的Hadoop伪分布式集群,检查创建的虚拟机是否能够正常ping通网络(包括ping主机)ping网关、ping百度)(注:使用命令ping);

  1. 启动Hadoop的伪分布式集群(注:使用命令start-all.sh以及jps)

  1. 到浏览器当中连接9870端口看是否能够正常查看(出现如下图所示的界面则是正常可以查看);

  1. 使用传输文件的文件连接虚拟机,将所需要的bigdata.txt文件先上传到虚拟机中(本人将bigdata.txt文件上传到虚拟机名为yxh的文件夹中)(注:使用命令cd切换目录到yxh中去之后,是否能够看到bigdata.txt文件);

  1. 接着将对应上传的bigdata.txt文件上传到hdfs的大数据平台上(注:使用命令hdfs dfs -put  /Mapreduce/bigdata.txt);

  1. 在IDEA中新建一个Java项目,在新建的项目中导入对应的jar包;

  1. 选择IDEA中的File——>Project Structure..——>Modules中导入对应的依赖(首先可以将需要的jar包导入进入一个文件夹中便于后续的导入,之后选中要导入的jar包所在的文件夹的位置),之后将对应的依赖导入之后,点击Apply——>OK就可以在对应的位置看到导入的依赖了;

  1. 导入成功之后,就可以创建一个文件夹(便于管理),然后选择创建对应的java程序;

  1. 在创建好的java Class中写入Map、Reduce、Main对应的代码;

Map:

Reduce:

Main:

  1. 由于需要对统计的文件以及统计的结果进行输出的操作,所以可以在大数据平台上创建一个目录,对这些进行管理(注:使用命令hdfs dfs -mkdir 创建的目录的位置和名称);

  1. 在IDEA中选中File——>Project Structure——>Artifacts——>jar——>From Modules with dependencies..

  1. 选中build进行构建

  1. 将IDEA中打出的jar包使用传输工具上传到Linux中;

  1. 接着在linux中运行对应的jar包实现对于数据的统计(注:hadoop jar 上传的jar包所在的路径 主函数的位置);

  1. 查看在大数据平台(注:使用命令hdfs dfs -ls /Mapreduce);

jie

  1. 查看生成的output文件中的内容(注:使用命令hdfs dfs -ls /Mapreduce/output);

  1. 接着进入文件查看文件part-r-00000文件中的统计结果的具体内容(注:使用命令hdfs dfs -cat /Mapreduce/output/part-r-00000);

实验心得:

  1. 在创建IDEA项目中,在编写代码之前必须将对应的jar包导入到对应的项目当中去,否则项目会出现报错的情况;
  2. 在IDEA中编写好代码之后,是不可以直接在IDEA中去运行羡慕代码的,需要将创建好的项目打包形成一个jar包,再将对应打好的jar包放到虚拟机中合适的位置,在Hadoop集群中进行运行处理;
  3. 在IDEA中最后显示的输出的文件夹的位置,该文件夹必须是在大数据平台上是没有出现的(即是没有同名的文件夹),否则在运行时会出现运行错误;
  4. 如果上传到虚拟机中的Jar包IDEA代码生成的文件中不再存在文件内容,那么肯呢个出现的问题是在IDEA中项目的代码内容是出现存在问题的;
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值