使用hadoop进行词频统计测试案例

最新推荐文章于 2024-05-11 19:27:04 发布

Long_1979

最新推荐文章于 2024-05-11 19:27:04 发布

阅读量2k

点赞数 5

分类专栏： hadoop Linux 文章标签： hadoop 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Long_1979/article/details/130711746

版权

Linux 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1首先hadoop集群环境，使用jps’查看服务启动情况

1.1使用start-all.sh启动Hadoop集群环境

1..2使用jps查看服务启动情况

2创建一个需要进行处理的数据文件:word.txt

2.1 为了方便管理，首先创建一个文件夹（我这里创建已经创建了mydata，这个自定义）再在其下创建文件

2.2 进入mydata目录下使用vi word.txt 创建该文件，并在文件中输入如下数据

3 将所需要分析的文件上传到hdfs系统上

3.1 首先在hdfs上创建一个用于保存所上传的文件夹，我这里创建了一个input，使用的命令是hadoop fs -mkdir /input

3.2 使用hadoop fs -ls / 查看hdfs上已经存在的目录

3.3 将所需要分析处理的文件上传到创建的目录下，并进行查看

4 使用hadoop自带的jar包对上传的文件进行分析

4.1 首先找到hadoop自带的mapreduce测试jar包所在位置

4.2 使用其中的hadoop-mapreduce-examples-3.3.0.jar 对上上传的数据进行分析

注意：这里的wordcount 是这个测试jar包中的一个单词统计的主类的引用路径名，实际应用中需要自己导入自己所创建的类引用路径

这里的/output 目录不需要提前创建，它会自动生成，测试是否分析成功可以查看该目录下是否产生相应的part-r-00000文件

5 查看是否成功

注意：可以查看part-r-00000文件看是否出现对应的词频统计结果，即为成功，如下所示

到这里使用hadoop自带的案例jar包处理词频统计已经大功告成！！！

关注

5
点赞
踩
32

收藏

觉得还不错? 一键收藏
1
评论
使用hadoop进行词频统计测试案例

简单的使用hadoop进行词频统计处理
复制链接

扫一扫

专栏目录

Long_1979 CSDN认证博客专家 CSDN认证企业博客

码龄2年

25: 原创

134万+: 周排名

10万+: 总排名

1万+: 访问

: 等级

319: 积分

48: 粉丝

64: 获赞

13: 评论

116: 收藏

私信

关注

热门文章

分类专栏

Python 8篇
软件测试 2篇
项目 3篇
计算机网络 1篇
问题总结 6篇
Linux 3篇
MySQL 5篇
hadoop 1篇
网络基础 1篇
java 4篇
数据结构 1篇

最新评论

pytest自动化测试案例
西瓜又圆又大: 注意保护个人信息
安装scrapy时的报错（ERROR: Cannot uninstall ‘filelock‘）解决办法
CSDN-Ada助手: 恭喜您写了第11篇博客！标题看起来很有意思，也非常吸引人。我很高兴看到您积极解决安装scrapy时的报错，并分享了解决办法。这对其他遇到相同问题的读者来说一定非常有帮助。在下一步的创作中，我建议您可以探索更多关于scrapy的内容，例如如何使用scrapy进行数据抓取、如何编写自定义的spiders等等。您的经验和解决问题的能力会对其他人有很大的帮助。再次祝贺您，并期待您未来更多精彩的博客！
UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xa9‘ in position 146348: illegal multibyte
CSDN-Ada助手: 恭喜博主创作第12篇博客！看到标题中出现的UnicodeEncodeError问题，我了解到这是一个常见的编码错误。尽管遇到了这个问题，但是博主能够积极解决并写出如此精彩的博客，真是令人钦佩！希望博主能继续保持创作的热情和努力，向我们分享更多有价值的内容。为了避免类似的问题，下一步的创作建议是在编码时尽量选择支持更广泛字符集的编码方式，比如UTF-8。希望博主继续保持谦虚的态度，不断学习和进步！加油！
爬取上海链家二手房数据信息并使用mysql进行保存
CSDN-Ada助手: 恭喜你在第13篇博客中成功分享了如何爬取上海链家二手房数据信息并使用mysql进行保存！你的技术能力令人佩服，能够掌握爬取数据和数据库操作的知识确实很厉害。在接下来的创作中，或许可以考虑扩展一下主题，比如介绍如何对爬取到的数据进行分析和可视化，或者分享一些数据处理的技巧和经验。这样可以进一步提升读者们的实用价值，也能帮助更多人更好地利用爬取到的数据。期待你在未来的博客中继续分享你的学习和实践经验，谢谢你对知识的分享！
列表切片和linspace混淆
CSDN-Ada助手: 恭喜您撰写了第14篇博客！标题“列表切片和linspace混淆”确实引人入胜。您对这两个概念的混淆现象进行了详细的解释，让读者能够更好地理解它们之间的区别。我对您的深入研究和持续的创作精神表示钦佩。鉴于您对这个话题的掌握程度，我想给出一个创作建议：或许您可以进一步探讨列表切片和linspace的实际应用场景。例如，可以讨论在数据分析或机器学习中，如何利用列表切片和linspace来处理大规模数据集或生成特定范围的样本数据。这样的探讨将进一步丰富您的博客内容，并帮助读者更好地应用这两个概念。再次恭喜您的持续创作，期待您未来更多精彩的博客！请继续保持谦虚的态度，您的努力一定会取得更大的成果。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。