有一个线上服务器访问日志格式如下(用sql答题)
时间 接口 ip地址
2016-11-09 11:22:05 /api/user/login 110.23.5.33
2016-11-09 11:23:10 /api/user/detail 57.3.2.16
.....
2016-11-09 23:59:40 /api/user/login 200.6.5.166
数据集
2016-11-09 14:22:05 /api/user/login 110.23.5.33
2016-11-09 11:23:10 /api/user/detail 57.3.2.16
2016-11-09 14:59:40 /api/user/login 200.6.5.166
2016-11-09 14:22:05 /api/user/login 110.23.5.34
2016-11-09 14:22:05 /api/user/login 110.23.5.34
2016-11-09 14:22:05 /api/user/login 110.23.5.34
2016-11-09 11:23:10 /api/user/detail 57.3.2.16
2016-11-09 23:59:40 /api/user/login 200.6.5.166
2016-11-09 14:22:05 /api/user/login 110.23.5.34
2016-11-09 11:23:10 /api/user/detail 57.3.2.16
2016-11-09 23:59:40 /api/user/login 200.6.5.166
2016-11-09 14:22:05 /api/user/login 110.23.5.35
2016-11-09 14:23:10 /api/user/detail 57.3.2.16
2016-11-09 23:59:40 /api/user/login 200.6.5.166
2016-11-09 14:59:40 /api/user/login 200.6.5.166
2016-11-09 14:59:40 /api/user/login 200.6.5.166
1)建表
create table ip(
time string,
interface string,
ip string)
row format delimited fields terminated by '\t';
2)求11月9号下午14点(14-15点),访问api/user/login接口的top10的ip地址
select ip,
interface,
count(*) ct
from ip
where interface = '/api/user/login'
and date_format(time, 'yyyy-MM-dd HH') >= '2016-11-09 14'
and date_format(time, 'yyyy-MM-dd HH') <= '2016-11-09 15'
group by ip, interface
order by ct desc
limit 10;
总结
Hive 求Top N
,需要确定是否需要分组,如上面这个并不需要分组. 因为要求的是全局
的Top N
,如果是求每个XX的Top N,则需要以及XX分组(开窗函数rank())