Hive——窗口

1. 窗口函数


        自0.11.0版本开始,Hive加入了窗口函数功能。窗口函数是一 组特殊的函数,它能扫描多个输入行以计算各输出值,可为每行数据分别生成一行结果记录, 几乎所有复杂的聚合计算都可以通过它来完成。

        Hive提供多种窗口函数,按功能不同可划分为3类:排序类、聚合类及分析类。        

1.1 排序类


 
(1) ROW_ NUMBER()


        该函数基于OVER对象分组、排序的结果,为每行分组 记录返回一个序号。该序号从1开始递增,遇到新组则重新从1开始递增。也就是说,该函数计算的值表示每组内部排序后的顺序编号。

(2) RANK() 

        该函数与ROW_ NUMBER类似,但在产生序号的连续性上的规则不同。比如针对下列情况,即两名学生的成绩并列第- ,那么RANK规则会将两名学生作为并列第一名,接下来的学生作为第三名,之所以如此是因为第一名出现2次, 第二名被跳过了。

(3) DENSE_ RANK()

        使用RANK0排序时,一且出现相同序号,后续序号将不再连续。与RANK()相比,DENSE_RANK()不会跳号将保持序号连续。

(4) NTILE(n)

        NTILE()将OVER对象的分组结果数据集按照顺序平均切分成n片,并为每一行记录返回一个切片号。

(5) PERCENT RANK()

        该函数返回OVER对象分组内当前行的RANK值与组内总行数的比值。设当前行的RANK值为rank,分组内的总行数为rows,则该函数的具体公式可表示为: (rank 1)/(rows-1)。

1.2 聚合类

        常用的聚合类包括COUCo SUMCco) MAX(co) MINco)及 AVCcol等,分别返回OVER对象分组内的总行数、总和、最大值、最小值及平均值。

1.3 分析类


CUME DISTO: 返回小于等于当前值的行数与分组内总行数的比值。
LAG/LEAD (col,n,DEFAULT):统计窗口内往上/下第n行的值。第一个多 数为列名,第二参数为往上/下第n行(可选,默认为1),第三个参数表示当往上/下第n行为NULL时取该默认值,默认为NULL。
FIRST VALUE/LAST VALUE(col):返回OVER对象分组内第一个值/最后一个值。

2. 窗口的定义


        窗口的定义由窗口子句“[<window_ clause>]" 来实现,用于进一步细分分组结果并应用分析函数。窗口子句不支持的函数包括: RANK、NTILE、DENSE RANK、CUME DIST、PERCENT RANK、LEAD及LAG。窗口分为两类:行类型窗口(行窗口)与范围类型窗口(范围窗口)。

2.1 行窗口


        行窗口是根据当前行之前或之后的行号确定的窗口

2.2 范围窗口


        与行窗口相比,范围窗口不直接指定分组内第几行,而是取分组内“值在指定范围区间内的”行,该范围区间是通过用当前行的值加减指定的数字来决定的。目前,范围窗口只支持一个ORDER BY列。
 

              

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值