hive实现50w词频统计与ctrip数据集销售额计算

用hive对50万条记录(数据文件demo50w.utf8)进行词频统计,数据清洗转换自行处理,并列出词频最高的20个词。

首先准备好要统计单词的文件,并上传到hdfs上,登录hive,先创建一个表,这个表中只有一列数据,类型为string,用来存放统计单词的文件,把文件内容作为一个字符串存储。然后创建存放单词及计数结果的表,这个表的内容来自select嵌套查询。使用正则表达式进行匹配,从文件中筛选出网址,并统计出出现的频率,查询出频率在前二十的网址。

regexp_extract()为正则表达式,用来清洗数据,group by按单词分组,并按出现的次数排序,降序排序,limit限制显示的条数。


程序:

hive> create table doc_utf(line string);

hive> load data inpath‘/input/demo50w.utf8’ into table doc_utf8;

hive> create table demo1 as

> selectword,count(*) as count from

> (selectregexp_extract(line,'http://.*',0) word from doc_utf) word

> group byword

> order bycount desc

> limit 20;


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值