Hql查询案例二 : 词频分析

数据

hello tom hello jim
hello rose hello tom
tom love rose rose love jim
jim love tom love is what
what is love

需求

统计文件中每个单词出现的频率

需求分析

  1. 建表存放数据
  2. 将数据导入hive表中
  3. 将数据按空格分割,并使用explode炸裂为列的格式
    4.炸裂结果为每个单词一行,将数据按单词分组并排序,count()统计词频数

hql语句

  1. 建表
    create table t_wc(sentence string);
  2. 导入数据
    load data local inpath '/root/hivetest/xx.txt' into table t_wc;
  3. 实现功能
    SELECT word
    ,count(1) as cnts
    FROM (
    SELECT explode(split(sentence, ' ')) AS word
    FROM t_wc
    ) tmp
    GROUP BY word
    order by cnts desc
    ;
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值