1. 窗口函数
自0.11.0版本开始,Hive加入了窗口函数功能。窗口函数是一 组特殊的函数,它能扫描多个输入行以计算各输出值,可为每行数据分别生成一行结果记录, 几乎所有复杂的聚合计算都可以通过它来完成。
Hive提供多种窗口函数,按功能不同可划分为3类:排序类、聚合类及分析类。
1.1 排序类
(1) ROW_ NUMBER()
该函数基于OVER对象分组、排序的结果,为每行分组 记录返回一个序号。该序号从1开始递增,遇到新组则重新从1开始递增。也就是说,该函数计算的值表示每组内部排序后的顺序编号。
(2) RANK()
该函数与ROW_ NUMBER类似,但在产生序号的连续性上的规则不同。比如针对下列情况,即两名学生的成绩并列第- ,那么RANK规则会将两名学生作为并列第一名,接下来的学生作为第三名,之所以如此是因为第一名出现2次, 第二名被跳过了。
(3) DENSE_ RANK()
使用RANK0排序时,一且出现相同序号,后续序号将不再连续。与RANK()相比,DENSE_RANK()不会跳号将保持序号连续。
(4) NTILE(n)
NTILE()将OVER对象的分组结果数据集按照顺序平均切分成n片,并为每一行记录返回一个切片号。
(5) PERCENT RANK()
该函数返回OVER对象分组内当前行的RANK值与组内总行数的比值。设当前行的RANK值为rank,分组内的总行数为rows,则该函数的具体公式可表示为: (rank 1)/(rows-1)。
1.2 聚合类
常用的聚合类包括COUCo SUMCco) MAX(co) MINco)及 AVCcol等,分别返回OVER对象分组内的总行数、总和、最大值、最小值及平均值。
1.3 分析类
CUME DISTO: 返回小于等于当前值的行数与分组内总行数的比值。
LAG/LEAD (col,n,DEFAULT):统计窗口内往上/下第n行的值。第一个多 数为列名,第二参数为往上/下第n行(可选,默认为1),第三个参数表示当往上/下第n行为NULL时取该默认值,默认为NULL。
FIRST VALUE/LAST VALUE(col):返回OVER对象分组内第一个值/最后一个值。
2. 窗口的定义
窗口的定义由窗口子句“[<window_ clause>]" 来实现,用于进一步细分分组结果并应用分析函数。窗口子句不支持的函数包括: RANK、NTILE、DENSE RANK、CUME DIST、PERCENT RANK、LEAD及LAG。窗口分为两类:行类型窗口(行窗口)与范围类型窗口(范围窗口)。
2.1 行窗口
行窗口是根据当前行之前或之后的行号确定的窗口
2.2 范围窗口
与行窗口相比,范围窗口不直接指定分组内第几行,而是取分组内“值在指定范围区间内的”行,该范围区间是通过用当前行的值加减指定的数字来决定的。目前,范围窗口只支持一个ORDER BY列。