如何在hadoop上进行词频统计（完全分布）

最新推荐文章于 2025-01-14 09:40:52 发布

在下不上天

最新推荐文章于 2025-01-14 09:40:52 发布

阅读量1.2k

点赞数 9

文章标签： hadoop 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qianwanfuweng/article/details/142334150

版权

1、首先要自己准备一个文本文档，txt格式，名字为：word.txt

hollow world
low world
yellow world
hollow hadoop
yarm hadoop

然后在hadoop1的虚拟机下，创建目录，只创建这一个目录就可以。

hdfs dfs -mkdir -p /wordcount/input

然后切换到data目录

cd /export/data

输入rz进行刚才文本文件的上传.

上传完成后，需要将上传的文件再次上传到hadoop1的刚刚创建的input目录下。

hdfs dfs -put /export/data/world.txt /wordcount/input

可以通过，web UI的方式查看是否上传成功。进入到这个页面，点击右上角的，Utilities，点击第一个选项，即可查看文件是否上传成功。

如果看到最下方的一个文件即为上传成功。

2、切换回终端控制工具

进入mapreduce目录。

 cd /export/servers/hadoop/share/hadoop/mapreduce

输入ll命令，查看文件内容。显示如下内容即为成功，

随后，请看到最后一行红色的字体。

是hadoop提供的mapreduce工具，通过这个程序可以进行词频统计。

在mapreduce目录下执行以下命令。

注意！！！不要自己创建output目录，如果自己创建了output目录会导致程序运行失败，也可以改一个没有碰到过的命令。可以随意发挥。

hadoop jar hadoop-mapreduce-examples-3.3.1.jar wordcount /wordcount/input /wordcount/output

3·通过使用浏览器访问的YARN的Web UI可以查看程序的运行状态。

如果没有展示，可以刷新一下。

如果还是没有，那应该是上传失败。

接下来就可以等待程序运行了，mapreduce运行部分代码如图所示。

之后就可以静静等待。

那么最后，可以去HDFS的ui查看统计结果，结果存放在wordcount/output目录中。

点开就下面的part-00000就能看了。

今天的教学完毕，大家喜欢的话，可以关注支持一下~

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。