Hive3详细教程(六)基于Hive3的词频统计

1.准备单词文件words.txt

apple orange pear apple
banana peach pear
orange apple

2.新建word_r表

create table word_r(
line string
)

3.load进数据到表

load data local inpath '/apps/words.txt' overwrite into table word_r;

4.验证

select * from word_r;

在这里插入图片描述

以上本质上是将txt中的行数据,转换到数据库的line列的一个单元格中。

5.编写查询sql:
explode函数的使用,其作用是可以将一个数组以列的形式组织出来

可以先在beeline中执行以下语句,将line列的单元格数据以列的形式展示出来

select explode(split(line,' ')) as word from word_r

在这里插入图片描述

然后进行分组count聚合统计,并将单词以升序排序

select word,count(1) as count from 
(select explode(split(line,' ')) as word from word_r) w    
group by word
order by word;

在这里插入图片描述

每次执行时候都要编写该sql,较为复杂,可以通过create select的方式建一个新的表:

create table word_count as 
select word,count(1) as count from 
(select explode(split(line,' ')) as word from word_r) w    
group by word
order by word;

以后使用

select * from word_count

即可进行查询。

在这里插入图片描述

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值