Hive面试题

row_number:不管排名是不是有相同的,都按照顺序1,2,3……n
rank:排名相同的名次一样,同一排名有几个,后面排名就会跳过几次,如1 2 2 2 5 6 6 8
dense_rank:排名相同的名次一样,且后面名次不跳跃 如 1 2 2 2 3 4 4 5
连续登陆天数最大值
思想:先用row_number()函数排序,然后用登录日期减去排名,得到辅助列日期,如果辅助列日期是相同的话,证明用户是连续登录。

--建表
create table login_table(
user_id         string
,login_date      string
);

--插入测试数据
insert into login_table(user_id,login_date) 
values('001','20190301')
,('001','20190302')
,('001','20190304')
,('001','20190305')
,('001','20190306')
,('002','20190301')
,('002','20190302')
,('002','20190304')
,('002','20190307')
,('002','20190308')
,('002','20190309');


--计算连续登陆天数最大值
select user_id,max(continue_days) as max_continue_days
from (
	select user_id,sub,count(*) as continue_days
	from (
		select *,date_sub(from_unixtime(unix_timestamp(login_date,'yyyymmdd'),'yyyy-mm-dd'),row_number() over(partition by user_id order by login_date)) as sub
		from login_table
		) a 
	group by user_id,sub
	) b 
group by user_id;

每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数
思路:窗口函数
sum(pv) over(partition by name order by month_ rows between 1 preceding and 1 following) as sumpv

--pv.txt中存储数据如下:
A,2015-01,5
A,2015-01,15
B,2015-01,5
A,2015-01,8
B,2015-01,25
A,2015-01,5
A,2015-02,4
A,2015-02,6
B,2015-02,10
B,2015-02,5
A,2015-03,16
A,2015-03,22
B,2015-03,23
B,2015-03,10
B,2015-03,11


--1.建表
create table if not exists page_view(
name     string
,month_   string
,pv       int)
row format delimited fields terminated by ',' stored as textfile;


--2.上传
上传至/home/data/
hdfs dfs -put /home/data/pv.txt /user/user01/


--3.加载数据
load data inpath 'hdfs://hacluster/user/user01/pv.txt' overwrite into table page_view;


--4.计算每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数
select name,month_,pv
,max(a.pv) over(partition by name order by month_) as maxpv
,sum(a.pv) over(partition by name order by month_) as sumpv
from (
	select name,month_,sum(pv) as pv
	from page_view 
	group by name,month_
	) a ;


--下载数据
insert overwrite directory 'hdfs://hacluster/user/user01/data1' select * from page_view;
hdfs dfs -get /user/user01/data1 /home/data/

in和exists的区别
https://www.cnblogs.com/zhuyeshen/p/10955417.html
in在查询时,先进行子查询的表,然后将内表和外表做一个笛卡尔积,根据条件进行筛选。对于子查询比较小的时候,速度较快。
exists在查询时,循环遍历外表,外表中的记录有没有和内表的数据一样的。匹配上就将结果放入结果集中。

对数据进行操作的不用加table关键字,对与表相关的就的必须加table
truncate 表名;
create table 表名
drop table 表名;
delete from 表名 where …
alter table 表名
insert into 表名 values …
update 表名 set 列名=值

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值