Hive 求全局Top N

有一个线上服务器访问日志格式如下(用sql答题)

时间                    接口                         ip地址
2016-11-09 112205    /api/user/login                  110.23.5.33
2016-11-09 112310    /api/user/detail                  57.3.2.16
.....
2016-11-09 235940    /api/user/login                  200.6.5.166

数据集

2016-11-09 14:22:05	/api/user/login	110.23.5.33
2016-11-09 11:23:10	/api/user/detail	57.3.2.16
2016-11-09 14:59:40	/api/user/login	200.6.5.166
2016-11-09 14:22:05	/api/user/login	110.23.5.34
2016-11-09 14:22:05	/api/user/login	110.23.5.34
2016-11-09 14:22:05	/api/user/login	110.23.5.34
2016-11-09 11:23:10	/api/user/detail	57.3.2.16
2016-11-09 23:59:40	/api/user/login	200.6.5.166
2016-11-09 14:22:05	/api/user/login	110.23.5.34
2016-11-09 11:23:10	/api/user/detail	57.3.2.16
2016-11-09 23:59:40	/api/user/login	200.6.5.166
2016-11-09 14:22:05	/api/user/login	110.23.5.35
2016-11-09 14:23:10	/api/user/detail	57.3.2.16
2016-11-09 23:59:40	/api/user/login	200.6.5.166
2016-11-09 14:59:40	/api/user/login	200.6.5.166
2016-11-09 14:59:40	/api/user/login	200.6.5.166

1)建表

create table ip(
    time string,
    interface string,
    ip string)
row format delimited fields terminated by '\t';

2)求11月9号下午14点(14-15点),访问api/user/login接口的top10的ip地址

select ip,
       interface,
       count(*) ct
from ip
where interface = '/api/user/login'
  and date_format(time, 'yyyy-MM-dd HH') >= '2016-11-09 14'
  and date_format(time, 'yyyy-MM-dd HH') <= '2016-11-09 15'
group by ip, interface
order by ct desc
limit 10;

总结

Hive 求Top N,需要确定是否需要分组,如上面这个并不需要分组. 因为要求的是全局Top N,如果是求每个XX的Top N,则需要以及XX分组(开窗函数rank())

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值