Hive实战之京东

本文通过Hive SQL解决京东店铺的用户访问数据分析问题,包括按日期累积访问次数、统计每个店铺的UV(访客数)及每个店铺访问次数排名前三的访客信息。介绍了使用SUM窗口函数进行累计计算,以及GROUP BY与COUNT结合优化去重计数的方法。
摘要由CSDN通过智能技术生成

一、 按照日期累积访问次数

我们有如下的用户访问数据

userId visitDate visitCount
u01 2017/1/21 5
u02 2017/1/23 6
u03 2017/1/22 8
u04 2017/1/20 3
u01 2017/1/23 6
u01 2017/2/21 8
u02 2017/1/23 6
u01 2017/2/22 4

Q1:要求使用SQL统计出每个用户的累积访问次数,

如下表所示:

用户id 月份 小计 累积
u01 2017-01 11 11
u01 2017-02 12 23
u02 2017-01 12 12
u03 2017-01 8 8
u04 2017-01 3 3

创建表

create table action
		(userId string,
		visitDate string,
		visitCount int) 
row format delimited fields terminated by "\t";

Q1.思路:

①将日期的“/”转换成“-”
②算出小计
③累计是在小计的计算结果再计算,而且group by不能实现累计。
使用sum(小计) over(partition by UserID order by 日期)

第一步,将日期的“/”转换成“-”

1.	Select  
2.	      UserID,  
3.	      date_formate(regexp_replace(visidate,
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值