窗口函数编号及行转列

最新推荐文章于 2022-11-25 13:51:34 发布

Darin2017

最新推荐文章于 2022-11-25 13:51:34 发布

阅读量243

点赞数

分类专栏： HQL

本文链接：https://blog.csdn.net/Darin2017/article/details/110236344

版权

HQL 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

窗口函数中dense_rank() 与rank()函数的区别：
1、dense_rank()该函数用于计算连续排名。col2相同的行数据获得的排名相同。
2、 rank() 该函数用于计算排名。col2相同的行数据获得排名顺序下降。
dense_rank 产生的排名是连续的，比如：1，1，2，2，3，4
rank产生的排名是递减的，比如：1，1，3，3，5，6

array一行转多行：
select
tea_id,
realname,
group_list,
group_id
from
gdm.gdm_teacher_auth_condition LATERAL VIEW EXPLODE(group_list) v as group_id
where
dt=date_sub(current_date,1)
and tea_id in (
‘16337811’,‘12450323’
)
结果为：在这里插入图片描述

多行转一行使用collect_set()

例如：
select
user_id,
collect_set(channel) as channel
from
(
select
user_id,
channel
from tmp.test_table
distribute by user_id
sort by channel
) t
group by user_id

（注：
Distribute By：在有些情况下，我们需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。distribute by子句可以做这件事。distribute by类似MR中partition（自定义分区），进行分区，结合sort by使用。

对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。

案例实操：

（1）先按照部门编号分区，再按照员工编号降序排序。

hive (default)> set mapreduce.job.reduces=3;
hive (default)> insert overwrite local directory ‘/opt/module/datas/distribute-result’ select * from emp distribute by deptno sort by empno desc;
注意：

1．distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后，余数相同的分到一个区。

2．Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。

同时：
使用order by会引发全局排序

select * from baidu_click order by click desc;

使用distribute和sort进行分组排序

select * from baidu_click distribute by product_line sort by click desc;）

hive中自定义排序，可以用case when … then ‘1’ when … then ‘2’ …else end 构造列来排序,
使用distribute by 。。。sort by 可以加快查询速度。

Darin2017

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
窗口函数编号及行转列

窗口函数中dense_rank() 与rank()函数的区别：1、dense_rank()该函数用于计算连续排名。col2相同的行数据获得的排名相同。2、 rank() 该函数用于计算排名。col2相同的行数据获得排名顺序下降。dense_rank 产生的排名是连续的，比如：1，1，2，2，3，4rank产生的排名是递减的，比如：1，1，3，3，5，6...
复制链接

扫一扫