Hive-偏移/排序窗口函数&随机抽样
1. 偏移函数
偏移函数 | 备注 |
---|---|
LEAD(col,n,DEFAULT) | 用于统计窗口内往下第n行值 从当前行下移几行的值(最后一行取值为null) |
LAG(col,n,DEFAULT) | 用于统计窗口内往上第n行值 从当前行上移几行的值(第一行取值为null) |
first_value(col, DEFAULT) | 取分组内排序后,截止到当前行,第一个值 |
last_value(col, DEFAULT) | 取分组内排序后,截止到当前行,最后一个值 |
2. 偏移函数示例
需求:检验emp表的 userid 是否为连续的 (userid 排序后,差值都为1就表示连续)
-
先进行排序