窗口函数编号及行转列

窗口函数中dense_rank() 与rank()函数的区别:
1、dense_rank()该函数用于计算连续排名。col2相同的行数据获得的排名相同。
2、 rank() 该函数用于计算排名。col2相同的行数据获得排名顺序下降。
dense_rank 产生的排名是连续的,比如:1,1,2,2,3,4
rank产生的排名是递减的,比如:1,1,3,3,5,6


array一行转多行:
select
tea_id,
realname,
group_list,
group_id
from
gdm.gdm_teacher_auth_condition LATERAL VIEW EXPLODE(group_list) v as group_id
where
dt=date_sub(current_date,1)
and tea_id in (
‘16337811’,‘12450323’
)
结果为:在这里插入图片描述


多行转一行使用collect_set()

例如:
select
user_id,
collect_set(channel) as channel
from
(
select
user_id,
channel
from tmp.test_table
distribute by user_id
sort by channel
) t
group by user_id

(注:
Distribute By: 在有些情况下,我们需要控制某个特定行应该到哪个reducer,通常是为了进行后续的聚集操作。distribute by子句可以做这件事。distribute by类似MR中partition(自定义分区),进行分区,结合sort by使用。

对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。

案例实操:

(1)先按照部门编号分区,再按照员工编号降序排序。

hive (default)> set mapreduce.job.reduces=3;
hive (default)> insert overwrite local directory ‘/opt/module/datas/distribute-result’ select * from emp distribute by deptno sort by empno desc;
注意:

1.distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后,余数相同的分到一个区。

2.Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。

同时:
使用order by会引发全局排序

select * from baidu_click order by click desc;

使用distribute和sort进行分组排序

select * from baidu_click distribute by product_line sort by click desc;)


hive中自定义排序,可以用case when … then ‘1’ when … then ‘2’ …else end 构造列来排序,
使用distribute by 。。。sort by 可以加快查询速度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值