hive数据库numeric_hive函数总结

本文详细介绍了Hive数据库中的numeric函数,包括聚合类函数如avg、count、stddev等,分析函数如cume_dist、dense_rank,集合函数如array_contains,复合类型函数如array、map,条件函数如if、coalesce,日期函数如add_months、current_date,数学函数如abs、acos,以及其他如crc32、md5等函数,全面展示了Hive在数据处理中的丰富功能。
摘要由CSDN通过智能技术生成

一、Aggregate--聚合类

1、avg(col)--返回某一列的平均值

2、count([DISTINCT] col) --对某一列计数

3、stddev_pop(col) --返回某一列的标准偏差

4、stddev_samp(col) --返回数据列无偏样本的标准偏差

5、sum(col)

6、max(col)

7、min(col)

8、corr(col1, col2) --返回两列的皮尔逊相关系数

9、covar_pop(col1, col2) --返回两列数据的总体协方差

10、covar_samp(col1, col2)--返回两列数据样本的协方差

11、collect_set(col) --返回一组消除了重复元素的对象,返回的是一个集合

12、collect_list(col)--返回具有重复项的对象列表

13、histogram_numeric(col, b) --返回array

14、ntile(INT x) --该函数将已经排序的分区分到x个桶中,并为每行分配一个桶号。这可以容易的计算三分位,四分位,十分位,百分位和其它通用的概要统计

15、percentile(BIGINT col, p) --返回组中列的精确第p个百分点(不适用于浮点类型)。 p必须介于0和1之间。注意:真正的百分位数只能用整数值计算。如果您的输入不是整数,请使用PERCENTILE_APPROX。

16、percentile(BIGINT col, array(p1 [, p2]...)) --返回array类型,返回组内某个列精确的第p1,p2,……位百分数,p必须在0和1之间,同上

16、percentile_approx(DOUBLE col, p [, B]) --返回组中数值列(包括浮点类型)的近似pth百分点(或百分点p1,p2,..)。 B参数以内存为代价控制逼近精度。较高的值会产生更好的近似值,默认值为10,000。当col中不同值的数量小于B时,这会得出确切的百分位数值。

17、percentile_approx(DOUBLE col, array(p1 [, p2]...) [, B]) --返回array,同上,可以返回多个百分点

18、variance(col)--返回组中数字列的方差

19、var_pop(col) --返回组中数字列的方差。

20、var_samp(col) --返回组中数字列的无偏样本方差。

21、regr_avgx(T independent, T dependent) --计算回归线的自变量(expr2)的平均值,去掉了空对(expr1, expr2)后,等于AVG(expr2)。截至Hive 2.2.0。

22、regr_avgy(T independent, T dependent) --计算回归线的应变量(expr1)的平均值,去掉了空对(expr1, expr2)后,等于AVG(expr1)。截至Hive 2.2.0

23、regr_count(T independent, T dependent) --返回用于拟合线性回归线的非空对数。截至Hive 2.2.0。

24、regr_intercept(T independent, T dependent) --返回线性回归的直线的y轴截距,即方程中的b值取决于= a *独立+ b。截至Hive 2.2.0。

25、regr_r2(T independent, T dependent) --返回回归的确定系数。截至Hive 2.2.0。

26、regr_slope(T independent, T dependent)--返回线性回归线的斜率,即方程式中的a值依赖于=a*独立+ b。截至Hive 2.2.0。

27、regr_sxx(T independent, T dependent)--返回值等于REGR_COUNT(expr1, expr2) * VAR_POP(expr2)

28、regr_sxy(T independent, T dependent) --返回值等于REGR_COUNT(expr1, expr2) * COVAR_POP(expr1, expr2)

29、regr_syy(T independent, T dependent) --返回值等于REGR_COUNT(expr1, expr2) * VAR_POP(expr1)

二、Analytic--分析函数

1、cume_dist() --计算一行在组中的相对位置,CUME_DIST总是返回大于0、小于或等于1的数,该数表示该行在N行中的位置

例子:

2、dense_rank() OVER([partition_by_clause] order_by_clause) --返回从1开始的递增整数序列。输出序列为ORDER BY表达式的重复值生成重复整数。

例:

3、first_value() OVER([partition_by_clause] order_by_clause [window_clause]) --从窗口的第一行返回表达式值。如果输入表达式为NULL,则返回值为NULL。

例:

4、lag(expr [,offset] [,default]) OVER() ([part

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值