一、Aggregate--聚合类
1、avg(col)--返回某一列的平均值
2、count([DISTINCT] col) --对某一列计数
3、stddev_pop(col) --返回某一列的标准偏差
4、stddev_samp(col) --返回数据列无偏样本的标准偏差
5、sum(col)
6、max(col)
7、min(col)
8、corr(col1, col2) --返回两列的皮尔逊相关系数
9、covar_pop(col1, col2) --返回两列数据的总体协方差
10、covar_samp(col1, col2)--返回两列数据样本的协方差
11、collect_set(col) --返回一组消除了重复元素的对象,返回的是一个集合
12、collect_list(col)--返回具有重复项的对象列表
13、histogram_numeric(col, b) --返回array
14、ntile(INT x) --该函数将已经排序的分区分到x个桶中,并为每行分配一个桶号。这可以容易的计算三分位,四分位,十分位,百分位和其它通用的概要统计
15、percentile(BIGINT col, p) --返回组中列的精确第p个百分点(不适用于浮点类型)。 p必须介于0和1之间。注意:真正的百分位数只能用整数值计算。如果您的输入不是整数,请使用PERCENTILE_APPROX。
16、percentile(BIGINT col, array(p1 [, p2]...)) --返回array类型,返回组内某个列精确的第p1,p2,……位百分数,p必须在0和1之间,同上
16、percentile_approx(DOUBLE col, p [, B]) --返回组中数值列(包括浮点类型)的近似pth百分点(或百分点p1,p2,..)。 B参数以内存为代价控制逼近精度。较高的值会产生更好的近似值,默认值为10,000。当col中不同值的数量小于B时,这会得出确切的百分位数值。
17、percentile_approx(DOUBLE col, array(p1 [, p2]...) [, B]) --返回array,同上,可以返回多个百分点
18、variance(col)--返回组中数字列的方差
19、var_pop(col) --返回组中数字列的方差。
20、var_samp(col) --返回组中数字列的无偏样本方差。
21、regr_avgx(T independent, T dependent) --计算回归线的自变量(expr2)的平均值,去掉了空对(expr1, expr2)后,等于AVG(expr2)。截至Hive 2.2.0。
22、regr_avgy(T independent, T dependent) --计算回归线的应变量(expr1)的平均值,去掉了空对(expr1, expr2)后,等于AVG(expr1)。截至Hive 2.2.0
23、regr_count(T independent, T dependent) --返回用于拟合线性回归线的非空对数。截至Hive 2.2.0。
24、regr_intercept(T independent, T dependent) --返回线性回归的直线的y轴截距,即方程中的b值取决于= a *独立+ b。截至Hive 2.2.0。
25、regr_r2(T independent, T dependent) --返回回归的确定系数。截至Hive 2.2.0。
26、regr_slope(T independent, T dependent)--返回线性回归线的斜率,即方程式中的a值依赖于=a*独立+ b。截至Hive 2.2.0。
27、regr_sxx(T independent, T dependent)--返回值等于REGR_COUNT(expr1, expr2) * VAR_POP(expr2)
28、regr_sxy(T independent, T dependent) --返回值等于REGR_COUNT(expr1, expr2) * COVAR_POP(expr1, expr2)
29、regr_syy(T independent, T dependent) --返回值等于REGR_COUNT(expr1, expr2) * VAR_POP(expr1)
二、Analytic--分析函数
1、cume_dist() --计算一行在组中的相对位置,CUME_DIST总是返回大于0、小于或等于1的数,该数表示该行在N行中的位置
例子:
2、dense_rank() OVER([partition_by_clause] order_by_clause) --返回从1开始的递增整数序列。输出序列为ORDER BY表达式的重复值生成重复整数。
例:
3、first_value() OVER([partition_by_clause] order_by_clause [window_clause]) --从窗口的第一行返回表达式值。如果输入表达式为NULL,则返回值为NULL。
例:
4、lag(expr [,offset] [,default]) OVER() ([part

本文详细介绍了Hive数据库中的numeric函数,包括聚合类函数如avg、count、stddev等,分析函数如cume_dist、dense_rank,集合函数如array_contains,复合类型函数如array、map,条件函数如if、coalesce,日期函数如add_months、current_date,数学函数如abs、acos,以及其他如crc32、md5等函数,全面展示了Hive在数据处理中的丰富功能。
最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



