Hadoop伪分布式集群的单词统计

最新推荐文章于 2024-04-28 12:00:00 发布

咿呀!384

最新推荐文章于 2024-04-28 12:00:00 发布

阅读量221

点赞数 2

文章标签：分布式 hadoop 大数据

本文链接：https://blog.csdn.net/qq_68579506/article/details/133742724

版权

项目需求：有一份bigdata.txt文件，请将它上传到大数据平台的HDFS上，然后编写MapReduce算法统计该文件中每一个单词出现的次数。

备注：关键步骤截图，整理成实验报告提交

实验步骤：

打开VMware中自己构建的Hadoop伪分布式集群，检查创建的虚拟机是否能够正常ping通网络（包括ping主机）ping网关、ping百度）（注：使用命令ping）；

使用传输文件的文件连接虚拟机，将所需要的bigdata.txt文件先上传到虚拟机中（本人将bigdata.txt文件上传到虚拟机名为yxh的文件夹中）（注：使用命令cd切换目录到yxh中去之后，是否能够看到bigdata.txt文件）；

接着将对应上传的bigdata.txt文件上传到hdfs的大数据平台上（注：使用命令hdfs dfs -put /Mapreduce/bigdata.txt）；

选择IDEA中的File——>Project Structure..——>Modules中导入对应的依赖（首先可以将需要的jar包导入进入一个文件夹中便于后续的导入，之后选中要导入的jar包所在的文件夹的位置），之后将对应的依赖导入之后，点击Apply——>OK就可以在对应的位置看到导入的依赖了；

Map：

Reduce:

Main:

由于需要对统计的文件以及统计的结果进行输出的操作，所以可以在大数据平台上创建一个目录，对这些进行管理（注：使用命令hdfs dfs -mkdir 创建的目录的位置和名称）；

在IDEA中选中File——>Project Structure——>Artifacts——>jar——>From Modules with dependencies..

jie

接着进入文件查看文件part-r-00000文件中的统计结果的具体内容（注：使用命令hdfs dfs -cat /Mapreduce/output/part-r-00000）;

实验心得：

在创建IDEA项目中，在编写代码之前必须将对应的jar包导入到对应的项目当中去，否则项目会出现报错的情况；
在IDEA中编写好代码之后，是不可以直接在IDEA中去运行羡慕代码的，需要将创建好的项目打包形成一个jar包，再将对应打好的jar包放到虚拟机中合适的位置，在Hadoop集群中进行运行处理；
在IDEA中最后显示的输出的文件夹的位置，该文件夹必须是在大数据平台上是没有出现的（即是没有同名的文件夹），否则在运行时会出现运行错误；
如果上传到虚拟机中的Jar包IDEA代码生成的文件中不再存在文件内容，那么肯呢个出现的问题是在IDEA中项目的代码内容是出现存在问题的；