Hive实战：词频统计

汽水味的橘子-

已于 2024-01-14 17:27:32 修改

阅读量1.6k

点赞数 35

文章标签： hive hadoop 数据仓库

于 2024-01-14 17:19:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_75130002/article/details/135295774

版权

文章目录

一、实战概述
二、提出任务
三、完成任务

一、实战概述

在本次实战中，我们任务是在大数据环境下使用Hive进行词频统计。首先，我们在master虚拟机上创建了一个名为test.txt的文本文件，内容包含一些关键词的句子。接着，我们将该文本文件上传到HDFS的/hivewc/input目录，作为数据源。
随后，我们启动了Hive Metastore服务和Hive客户端，为数据处理做准备。在Hive客户端中，我们创建了一个名为t_word的外部表，该表的结构包含一个字符串类型的word字段，并将其位置设置为HDFS中的/hivewc/input目录。这样，Hive就可以直接读取和处理HDFS中的文本数据
为了进行词频统计，我们编写了一条Hive SQL语句。该语句首先使用explode和split函数将每个句子拆分为单个单词，然后通过子查询对这些单词进行计数，并按单词进行分组，最终得到每个单词的出现次数。
通过执行这条SQL语句，我们成功地完成了词频统计任务，得到了预期的结果。这个过程展示了Hive在大数据处理中的强大能力，尤其是对于文本数据的分析和处理。同时，我们也注意到了在使用Hive时的一些细节，如子查询需要取别名等，这些经验将对今后的数据处理工作有所帮助。

二、提出任务

文本文件test.txt

hello hbase hello spark
we will learn hadoop
we will learn hive
we love hadoop spark

进行词频统计，结果如下

最低0.47元/天解锁文章

汽水味的橘子-

博客等级

码龄3年

11
原创

220
点赞

251
收藏

170
粉丝

关注

私信

热门文章

分类专栏

数据清洗和预处理 1篇

展开全部收起

最新评论

Hive实战：词频统计
CSDN-Ada助手: 这篇博文内容丰富，对于想要学习Hive实战词频统计的读者来说非常有帮助。希望作者能够继续分享更多关于Hive的实战经验，或许可以考虑结合实际案例进行分析，以及介绍一些优化查询性能的技巧，这些内容对于读者来说也会是非常有益的。同时，也建议作者在博文中加入一些实际操作的截图或者示例代码，更直观地展示给读者。期待您更多精彩的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
MR实战：词频统计
CSDN-Ada助手: 恭喜作者能够持续创作，这篇关于MR实战的词频统计的博客内容很实用，对读者来说肯定会有很大帮助。不过我觉得下一步可以考虑加入一些实际案例或者更深入的技术分析，让读者能够更好地理解和运用这些技术。希望作者能够继续努力，为大家带来更多有价值的内容。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
MR实战：学生信息排序
CSDN-Ada助手: 亲爱的博主，恭喜您发布了第四篇博客！标题“MR实战：学生信息排序”听起来非常有趣。您的博客内容一直都很有深度和实用性，我非常期待阅读您的最新文章。在这篇博客中，我相信您会向我们展示如何使用MR技术对学生信息进行排序。这个主题非常实用，因为学生信息排序是许多教育机构和学校管理系统中的常见需求。我认为您的实战经验和技术指导一定能够帮助到很多人。我非常欣赏您在每篇博客中分享的深入见解和详细步骤。但是，我也想提醒您，为了让更多读者能够理解和跟随您的文章，可以考虑在讲解技术细节的同时，加入一些实际案例或者更多的图表说明。这样一来，读者们更容易理解和应用您的教程。再次恭喜您的持续创作！期待看到更多精彩的博客。感谢您的努力和分享精神，让我们能够从您的经验中受益。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
MR实战：分科汇总求月考平均分
CSDN-Ada助手: 恭喜您撰写了第5篇博客！看到您在MR实战中的探索和总结，真是让人佩服。不过，我觉得接下来您可以尝试分享一些在实战中遇到的挑战和解决方案，这样更能帮助读者理解实际操作中的困难和技巧。希望您能继续保持创作，期待您的下一篇博客！
新学期的第一篇博客
酒城译痴无心剑: 以后会讲慢点，加油，快乐学习，不断进步👍

大家在看

pandas数据加载（python）

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。