hive统计函数
第一组:SUM、AVG、MIN、MAX
sum: sum(score) over (partition by a order by b)
当over()语句置空时,窗口默认返回所有行
第二组:NTILE、ROW_NUMBER、RANK、DENSE_RANK、CUME_DIST、PERCENT_RANK
NTILE(N):分组数据按照order by子句顺序切分成N片,返回当前行切片值,如果切片不均匀,默认增加第一个切片的分布。
ROW_NUMBER():分组数据按照order by子句顺序,生成分组内记录的序列。
RANK():分组数据按照order by子句顺序,生成数据项在分组中的排名,排名相等会在名次中留下空位。
DENSE_RANK():分组数据按照order by子句顺序,生成数据项在分组中的排名,排名相等不会在名次中留下空位。
CUME_DIST():分组数据按照order by子句顺序,生成(分组内小于等于当前值的行数) / (分组内总行数)的值。
PERCENT_RANK():分组数据按照order by子句顺序,生成(分组内当前行的RANK值-1) / (分组内总行数-1)。

本文介绍了Hive中的统计函数,包括SUM、AVG、MIN、MAX等基础统计,NTILE、ROW_NUMBER等排名函数,LAG、LEAD等窗口函数,以及GROUPING SETS、GROUPING_ID等分组聚合函数。每个函数都详细解释了其用法和应用场景。
最低0.47元/天 解锁文章
3556

被折叠的 条评论
为什么被折叠?



