Hive大白话(●二●)

目录

🧡order by

🧡sort by

🧡distribute by

🧡cluster by

🧡partition by

🧡group by


💟这里是CS大白话专场,让枯燥的学习变得有趣!

💟没有对象不要怕,我们new一个出来,每天对ta说不尽情话!

💟好记性不如烂键盘,自己总结不如收藏别人!

💌先建一个员工开销表:

💌接下来我们来区分下列语句的区别~

🧡order by

💌全局排序,只有一个Reducer。

🍠默认asc(升序),结尾加desc(降序)。

select * from business order by cost;

 

🍠如果存在相同的数值,则可以多加一个字段(最好唯一)进行二次排序。

🧡sort by

💌order by效率较低,使用sort by设置多个Reducer,为每个Reducer产生一个排序文件,每个Reducer内部进行排序,并非全局排序。

set mapreduce.job.reduces=3;
set mapreduce.job.reduces;

  

select * from business sort by id;

 💌可以看到单独使用sort by并没啥效果...所以最好搭配distribute by。

🧡distribute by

💌控制某个特定行应该到哪个reducer,根据分区字段的hash码与reduce的个数进行模除后,余数相同的分到一个区。

🍠先通过id分区,再通过开销升序排序:

select * from business distribute by id sort by cost;

🧡cluster by

💌distribute by和sort by(搭配)字段相同时,可以使用cluster by方式,但是排序只能是升序。以下两种方式等价:

select * from business distribute by id sort by id;
select * from business cluster by id;

 

🧡partition by

💌类似distribute by,与order by搭配,都不会减少原表中的行数。

select
    id,
    name,
    sum(cost) over (partition by name) total_cost
from 
    business;

 

💌与窗口函数over()相关的函数:

over()前:

🍠聚合函数:

avg()、sum()、max()、min()、count()。

🍠排序:

rank() :排序相同时会重复,总数不会变,即11345。
dense_rank() :排序相同时会重复,总数会减少,即11234。
row_number() :会根据顺序计算,即12345。

over()内:

CURRENT ROW:当前行

n PRECEDING:往前n行数据

n FOLLOWING:往后n行数据

UNBOUNDED:无界限

UNBOUNDED PRECEDING:表示从起点

UNBOUNDED FOLLOWING:表示到终点

LAG(col,n,default_val):往前第n行数据,往下移n行

LEAD(col,n, default_val):往后第n行数据,往上移n行

NTILE(n):把有序窗口的行分发到指定数据的组中,各个组有编号,编号从1开始,对于每一行,NTILE返回此行所属的组的编号。比如n=5,将数据分成五组,方便取每组数据。

select
    name,
    cost,
    sum(cost) over(partition by name order by orderdate rows between UNBOUNDED PRECEDING and CURRENT ROW) total_cost
from 
    business;

🧡group by

💌类似distribute by,但是会减少原表中的行数。

select
    name,
    sum(cost) total_cost
from
    business
group by name;

🍠select后第一个字段为分组字段。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值