Hive面试题

sinat_37333675

已于 2022-02-22 14:55:44 修改

阅读量212

点赞数

分类专栏： HIVE 文章标签： hive 数据分析

于 2020-12-11 17:20:55 首次发布

本文链接：https://blog.csdn.net/sinat_37333675/article/details/111045644

版权

HIVE 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

row_number:不管排名是不是有相同的，都按照顺序1，2，3……n
rank:排名相同的名次一样，同一排名有几个，后面排名就会跳过几次，如1 2 2 2 5 6 6 8
dense_rank:排名相同的名次一样，且后面名次不跳跃如 1 2 2 2 3 4 4 5
连续登陆天数最大值
思想：先用row_number（）函数排序，然后用登录日期减去排名，得到辅助列日期，如果辅助列日期是相同的话，证明用户是连续登录。

--建表
create table login_table(
user_id         string
,login_date      string
);

--插入测试数据
insert into login_table(user_id,login_date) 
values('001','20190301')
,('001','20190302')
,('001','20190304')
,('001','20190305')
,('001','20190306')
,('002','20190301')
,('002','20190302')
,('002','20190304')
,('002','20190307')
,('002','20190308')
,('002','20190309');


--计算连续登陆天数最大值
select user_id,max(continue_days) as max_continue_days
from (
	select user_id,sub,count(*) as continue_days
	from (
		select *,date_sub(from_unixtime(unix_timestamp(login_date,'yyyymmdd'),'yyyy-mm-dd'),row_number() over(partition by user_id order by login_date)) as sub
		from login_table
		) a 
	group by user_id,sub
	) b 
group by user_id;

每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数
思路：窗口函数
sum(pv) over(partition by name order by month_ rows between 1 preceding and 1 following) as sumpv

--pv.txt中存储数据如下：
A,2015-01,5
A,2015-01,15
B,2015-01,5
A,2015-01,8
B,2015-01,25
A,2015-01,5
A,2015-02,4
A,2015-02,6
B,2015-02,10
B,2015-02,5
A,2015-03,16
A,2015-03,22
B,2015-03,23
B,2015-03,10
B,2015-03,11


--1.建表
create table if not exists page_view(
name     string
,month_   string
,pv       int)
row format delimited fields terminated by ',' stored as textfile;


--2.上传
上传至/home/data/
hdfs dfs -put /home/data/pv.txt /user/user01/


--3.加载数据
load data inpath 'hdfs://hacluster/user/user01/pv.txt' overwrite into table page_view;


--4.计算每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数
select name,month_,pv
,max(a.pv) over(partition by name order by month_) as maxpv
,sum(a.pv) over(partition by name order by month_) as sumpv
from (
	select name,month_,sum(pv) as pv
	from page_view 
	group by name,month_
	) a ;


--下载数据
insert overwrite directory 'hdfs://hacluster/user/user01/data1' select * from page_view;
hdfs dfs -get /user/user01/data1 /home/data/

in和exists的区别
https://www.cnblogs.com/zhuyeshen/p/10955417.html
in在查询时，先进行子查询的表，然后将内表和外表做一个笛卡尔积，根据条件进行筛选。对于子查询比较小的时候，速度较快。
exists在查询时，循环遍历外表，外表中的记录有没有和内表的数据一样的。匹配上就将结果放入结果集中。

对数据进行操作的不用加table关键字，对与表相关的就的必须加table
truncate 表名；
create table 表名
drop table 表名；
delete from 表名 where …
alter table 表名
insert into 表名 values …
update 表名 set 列名=值

sinat_37333675

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive面试题

--建表create table login_table(user_id string,login_date string);--插入测试数据insert into login_table(user_id,login_date) values('001','20190301'),('001','20190302'),('001','20190304'),('001','20190305'),('001','20190306'),('002','201903
复制链接

扫一扫