数据
hello tom hello jim
hello rose hello tom
tom love rose rose love jim
jim love tom love is what
what is love
需求
统计文件中每个单词出现的频率
需求分析
- 建表存放数据
- 将数据导入hive表中
- 将数据按空格分割,并使用explode炸裂为列的格式
4.炸裂结果为每个单词一行,将数据按单词分组并排序,count()统计词频数
hql语句
- 建表
create table t_wc(sentence string);
- 导入数据
load data local inpath '/root/hivetest/xx.txt' into table t_wc;
- 实现功能
SELECT word
,count(1) as cnts
FROM (
SELECT explode(split(sentence, ' ')) AS word
FROM t_wc
) tmp
GROUP BY word
order by cnts desc
;