- 博客(2)
- 收藏
- 关注
原创 Hive实战:词频统计
在本次实战中,我们任务是在大数据环境下使用Hive进行词频统计。首先,我们在master虚拟机上创建了一个名为test.txt的文本文件,内容包含一些关键词的句子。接着,我们将该文本文件上传到HDFS的目录,作为数据源。随后,我们启动了Hive Metastore服务和Hive客户端,为数据处理做准备。在Hive客户端中,我们创建了一个名为t_word的外部表,该表的结构包含一个字符串类型的word字段,并将其位置设置为HDFS中的目录。这样,Hive就可以直接读取和处理HDFS中的文本数据。
2023-12-29 18:26:03 398 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人