Hive : 常用函数

ZC~Reunion

已于 2022-03-12 19:50:43 修改

阅读量2.4k

点赞数

分类专栏： DBMS 文章标签： hive hadoop 数据仓库

于 2022-02-17 19:00:41 首次发布

本文链接：https://blog.csdn.net/Lifereunion/article/details/122988823

版权

DBMS 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

Hive 常用函数

一、数学函数

1.1 基本运算

1、加法操作: +
语法: A + B
操作类型：所有数值类型
说明：返回A与B相加的结果。结果的数值类型等于A的类型和B的类型的最小父类型。比如，int + int 一般结果为int类型，而 int + double 一般结果为double类型

2、减法操作: -
语法: A – B
操作类型：所有数值类型
说明：返回A与B相减的结果。结果的数值类型等于A的类型和B的类型的最小父类型。比如，int – int 一般结果为int类型，而 int – double 一般结果为double类型

3、乘法操作: *
语法: A * B
操作类型：所有数值类型
说明：返回A与B相乘的结果。结果的数值类型等于A的类型和B的类型的最小父类型。注意，如果A乘以B的结果超过默认结果类型的数值范围，则需要通过cast将结果转换成范围更大的数值类型

4、除法操作: /
语法: A / B
操作类型：所有数值类型
说明：返回A除以B的结果。结果的数值类型为double

注意：hive中最高精度的数据类型是double,只精确到小数点后16位，在做除法运算的时候要特别注意

5、取余操作: %
语法: A % B
操作类型：所有数值类型
说明：返回A除以B的余数。结果的数值类型等于A的类型和B的类型的最小父类型

6、位与操作: &
语法: A & B
操作类型：所有数值类型
说明：返回A和B按位进行与操作的结果。结果的数值类型等于A的类型和B的类型的最小父类型

7、位或操作: |
语法: A | B
操作类型：所有数值类型
说明：返回A和B按位进行或操作的结果。结果的数值类型等于A的类型和B的类型的最小父类型

8、位异或操作: ^
语法: A ^ B
操作类型：所有数值类型
说明：返回A和B按位进行异或操作的结果。结果的数值类型等于A的类型和B的类型的最小父类型

9．位取反操作: ~
语法: ~A
操作类型：所有数值类型
说明：返回A按位取反操作的结果。结果的数值类型等于A的类型

1.2 关系运算

1、等值比较: =
语法：A = B
操作类型：所有基本类型
描述: 如果表达式A与表达式B相等，则为TRUE；否则为FALSE

2、不等值比较: <>
语法: A <> B
操作类型: 所有基本类型
描述: 如果表达式A为NULL，或者表达式B为NULL，返回NULL；如果表达式A与表达式B不相等，则为TRUE；否则为FALSE

3、小于比较: <
语法: A < B
操作类型：所有基本类型
描述: 如果表达式A为NULL，或者表达式B为NULL，返回NULL；如果表达式A小于表达式B，则为TRUE；否则为FALSE

4、小于等于比较: <=
语法: A <= B
操作类型: 所有基本类型
描述: 如果表达式A为NULL，或者表达式B为NULL，返回NULL；如果表达式A小于或者等于表达式B，则为TRUE；否则为FALSE

5、大于比较: >
语法: A > B
操作类型: 所有基本类型
描述: 如果表达式A为NULL，或者表达式B为NULL，返回NULL；如果表达式A大于表达式B，则为TRUE；否则为FALSE

6、大于等于比较: >=
语法: A >= B
操作类型: 所有基本类型
描述: 如果表达式A为NULL，或者表达式B为NULL，返回NULL；如果表达式A大于或者等于表达式B，则为TRUE；否则为FALSE

7、空值判断: IS NULL
语法: A IS NULL
操作类型: 所有类型
描述: 如果表达式A的值为NULL，则为TRUE；否则为FALSE

8、非空判断: IS NOT NULL
语法: A IS NOT NULL
操作类型: 所有类型
描述: 如果表达式A的值为NULL，则为FALSE；否则为TRUE

9、LIKE比较: LIKE
语法: A LIKE B
操作类型: strings
描述: 如果字符串A或者字符串B为NULL，则返回NULL；如果字符串A符合表达式B 的正则语法，则为TRUE；否则为FALSE。B中字符”_”表示任意单个字符，而字符”%”表示任意数量的字符

10、JAVA的LIKE操作: RLIKE
语法: A RLIKE B
操作类型: strings
描述: 如果字符串A或者字符串B为NULL，则返回NULL；如果字符串A符合JAVA正则表达式B的正则语法，则为TRUE；否则为FALSE

11、REGEXP操作: REGEXP
语法: A REGEXP B
操作类型: strings
描述: 功能与RLIKE相同

1.3 逻辑运算

1、逻辑与操作: AND
语法: A AND B
操作类型：boolean
说明：如果A和B均为TRUE，则为TRUE；否则为FALSE。如果A为NULL或B为NULL，则为NULL

2、逻辑或操作: OR
语法: A OR B
操作类型：boolean
说明：如果A为TRUE，或者B为TRUE，或者A和B均为TRUE，则为TRUE；否则为FALSE

3、逻辑非操作: NOT
语法: NOT A
操作类型：boolean
说明：如果A为FALSE，或者A为NULL，则为TRUE；否则为FALSE

1.4 数值运算

1、取整函数: round
语法: round(double a)
返回值: BIGINT
说明: 返回double类型的整数值部分（遵循四舍五入）

2、指定精度取整函数: round
语法: round(double a, int d)
返回值: DOUBLE
说明: 返回指定精度 d 的double类型

3、向下取整函数: floor
语法: floor(double a)
返回值: BIGINT
说明: 返回等于或者小于该double变量的最大的整数

4、向上取整函数: ceil
语法: ceil(double a)
返回值: BIGINT
说明: 返回等于或者大于该double变量的最小的整数

5、向上取整函数: ceiling
语法: ceiling(double a)
返回值: BIGINT
说明: 与ceil功能相同

6、取随机数函数: rand
语法: rand(), rand(int seed)
返回值: double
说明: 返回一个0到1范围内的随机数。如果指定种子seed，则会等到一个稳定的随机数序列

7、自然指数函数: exp
语法: exp(double a)
返回值: double
说明: 返回自然对数e的a次方

8、以10为底对数函数: log10
语法: log10(double a)
返回值: double
说明: 返回以10为底的a的对数

9、以2为底对数函数: log2
语法: log2(double a)
返回值: double
说明: 返回以2为底的a的对数

10、对数函数: log
语法: log(double base, double a)
返回值: double
说明: 返回以base为底的a的对数

11、幂运算函数: pow
语法: pow(double a, double p)
返回值: double
说明: 返回a的p次幂

12、幂运算函数: power
语法: power(double a, double p)
返回值: double
说明: 返回a的p次幂,与pow功能相同

13、开平方函数: sqrt
语法: sqrt(double a)
返回值: double
说明: 返回a的平方根

14、二进制函数: bin
语法: bin(BIGINT a)
返回值: string
说明: 返回a的二进制代码表示

15、十六进制函数: hex
语法: hex(BIGINT a)
返回值: string
说明: 如果变量是int类型，那么返回a的十六进制表示；如果变量是string类型，则返回该字符串的十六进制表示

16、反转十六进制函数: unhex
语法: unhex(string a)
返回值: string
说明: 返回该十六进制字符串所代码的字符串

17、进制转换函数: conv
语法: conv(BIGINT num, int from_base, int to_base)
返回值: string
说明: 将数值num从from_base进制转化到to_base进制

18、绝对值函数: abs
语法: abs(double a)，abs(int a)
返回值: double int
说明: 返回数值a的绝对值

19、正取余函数: pmod
语法: pmod(int a, int b)，pmod(double a, double b)
返回值: int double
说明: 返回正的a除以b的余数

20、正弦函数: sin
语法: sin(double a)
返回值: double
说明: 返回a的正弦值

21、反正弦函数: asin
语法: asin(double a)
返回值: double
说明: 返回a的反正弦值

22、余弦函数: cos
语法: cos(double a)
返回值: double
说明: 返回a的余弦值

23、反余弦函数: acos
语法: acos(double a)
返回值: double
说明: 返回a的反余弦值

24、positive函数: positive
语法: positive(int a)，positive(double a)
返回值: int double
说明: 返回a

25、negative函数: negative
语法: negative(int a)， negative(double a)
返回值: int double
说明: 返回-a

二：时间函数

1、UNIX时间戳转日期函数: from_unixtime
语法: from_unixtime( bigint unixtime[, string format] )
返回值: string
说明: 转化UNIX时间戳（从1970-01-01 00:00:00 UTC到指定时间的秒数）到当前时区的时间格式

select from_unixtime(1644819052,"yyyy-MM-dd hh-mm-ss:SS")   ==>2022-02-14 06-10-52:00

2、获取当前UNIX时间戳函数: unix_timestamp
语法: unix_timestamp()
返回值: bigint
说明: 获得当前时区的UNIX时间戳

3、日期转UNIX时间戳函数: unix_timestamp
语法: unix_timestamp(string date)
返回值: bigint
说明: 转换格式为"yyyy-MM-dd HH:mm:ss"的日期到UNIX时间戳。如果转化失败，则返回0

4、指定格式日期转UNIX时间戳函数: unix_timestamp
语法: unix_timestamp(string date, string pattern)
返回值: bigint
说明: 转换pattern格式的日期到UNIX时间戳。如果转化失败，则返回0

5、获取当前时间函数: current_timestamp
语法: current_timestamp()
返回值: String
说明: 获取当前时间

6、返回指定格式的时间日期: date_format
语法: date_format(string s,string format)
返回值: String
说明: 返回指定格式的时间日期

7、获取当前日期函数: current_date
语法: current_date()
返回值: String
说明: 获取当前日期

8、日期时间转日期函数: to_date
语法: to_date(string timestamp)
返回值: string
说明: 返回日期时间字段中的日期部分

select to_date("2022-02-17 04-10-51:00")   -->2022-02-17

9、获取年、季、月、日、时、分、秒的函数

year(string date)
month(string date)
day(string date)
hour(string date)
minute(string date)
second(string date)
weekday(string date) // 星期几(中国时间方式)
dayofweek(string date) // 星期几(美国时间方式)
last_day(string date) // 当月最后一天

10、当月、当年的第一天: trunc
语法: trunc(string date，string format)
返回值: string
说明: 返回当月、当年的的都一天

select trunc("2022-02-14 06-10-52:00","YYYY");   ==>2022-01-01
select trunc("2022-02-14 06-10-52:00","MM");     ==>2022-02-01

11、日期转周函数: weekofyear
语法: weekofyear (string date)
返回值: int
说明: 返回日期在当前的周数

12、日期增加函数: date_add
语法: date_add(string startdate, int days)
返回值: string
说明: 返回开始日期startdate增加days天后的日期

13、日期减少函数: date_sub
语法: date_sub (string startdate, int days)
返回值: string
说明: 返回开始日期startdate减少days天后的日期

14、增加月份函数: add_months
语法: add_months(strirng date ,int n)
说明: 增加月份，n为负数的时候为较少月份

15、日期比较函数: datediff
语法: datediff(string enddate, string startdate)
返回值: int
说明: 返回结束日期减去开始日期的天数

16、相差的月份函数: months_between
语法: months_between(string date1,string date2)
返回值: int
说明: 两个日期相差的月份

三、字符串函数

1、字符串长度函数：length
语法: length(string A)
返回值: int
说明：返回字符串A的长度

2、字符串反转函数：reverse
语法: reverse(string A)
返回值: string
说明：返回字符串A的反转结果

3、字符串连接函数：concat
语法: concat(string A, string B…)
返回值: string
说明：返回输入字符串连接后的结果，支持任意个输入字符串

4、带分隔符字符串连接函数：concat_ws
语法: concat_ws(string SEP, string A, string B…)
返回值: string
说明：返回输入字符串连接后的结果，SEP表示各个字符串间的分隔符

5、字符串截取函数：substr, substring
语法: substr(string A, int start)，substring(string A, int start)
返回值: string
说明：返回字符串A从start位置到结尾的字符串

6、字符串截取函数：substr,substring
语法: substr(string A, int start, int len)，substring(string A, int start, int len)
返回值: string
说明：返回字符串A从start位置开始，长度为len的字符串

7、字符串转大写函数：upper，ucase
语法: upper(string A)，ucase(string A)
返回值: string
说明：返回字符串A的大写格式

8、字符串转小写函数：lower，lcase
语法: lower(string A)，lcase(string A)
返回值: string
说明：返回字符串A的小写格式

9、去空格函数：trim
语法: trim(string A)
返回值: string
说明：去除字符串两边的空格

10、左边去空格函数：ltrim
语法: ltrim(string A)
返回值: string
说明：去除字符串左边的空格

11、右边去空格函数：rtrim
语法: rtrim(string A)
返回值: string
说明：去除字符串右边的空格

12、正则表达式替换函数：regexp_replace
语法: regexp_replace(string A, string B, string C)
返回值: string
说明：将字符串A中的符合java正则表达式B的部分替换为C
注意，在有些情况下要使用转义字符，类似oracle中的regexp_replace函数

13、正则表达式解析函数：regexp_extract
语法: regexp_extract(string subject, string pattern, int index)
返回值: string
说明：将字符串subject按照pattern正则表达式的规则拆分，返回index指定的字符

14、URL解析函数：parse_url
语法: parse_url(string urlString, string partToExtract [, string keyToExtract] )
返回值: string
说明：返回URL中指定的部分。partToExtract的有效值为：HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE, and USERINFO

15、json解析函数：get_json_object
语法: get_json_object(string json_string, string path)
返回值: string
说明：解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效，那么返回NULL

16、空格字符串函数：space
语法: space(int n)
返回值: string
说明：返回长度为n的字符串

17、重复字符串函数：repeat
语法: repeat(string str, int n)
返回值: string
说明：返回重复n次后的str字符串

18、首字符ascii函数：ascii
语法: ascii(string str)
返回值: int
说明：返回字符串str第一个字符的 ASCII 码

19、左补足函数：lpad
语法: lpad(string str, int len, string pad)
返回值: string
说明：将str进行用pad进行左补足到len位

20、右补足函数：rpad
语法: rpad(string str, int len, string pad)
返回值: string
说明：将str进行用 pad 进行右补足到 len 位

21、分割字符串函数: split
语法: split(string str, string pat)
返回值: array
说明: 按照pat字符串分割str，会返回分割后的字符串数组

22、集合查找函数: find_in_set
语法: find_in_set(string str, string strList)
返回值: int
说明: 返回str在strlist第一次出现的位置，strlist是用逗号分割的字符串。如果没有找该str字符，则返回0

四、统计函数

1、个数统计函数: count
语法: count(), count(expr), count(DISTINCT expr[, expr_.])
返回值: int
说明: count()统计检索出的行的个数，包括NULL值的行；count(expr)返回指定字段的非空值的个数；count(DISTINCT expr[, expr_.])返回指定字段的不同的非空值的个数

2、总和统计函数: sum
语法: sum(col), sum(DISTINCT col)
返回值: double
说明: sum(col)统计结果集中col的相加的结果；sum(DISTINCT col)统计结果中col不同值相加的结果

3、平均值统计函数: avg
语法: avg(col), avg(DISTINCT col)
返回值: double
说明: avg(col)统计结果集中col的平均值；avg(DISTINCT col)统计结果中col不同值相加的平均值

4、最小值统计函数: min
语法: min(col)
返回值: double
说明: 统计结果集中col字段的最小值

5、最大值统计函数: max
语法: maxcol)
返回值: double
说明: 统计结果集中col字段的最大值

6、非空集合总体变量函数: var_pop
语法: var_pop(col)
返回值: double
说明: 统计结果集中col非空集合的总体变量（忽略null）

7、非空集合样本变量函数: var_samp
语法: var_samp (col)
返回值: double
说明: 统计结果集中col非空集合的样本变量（忽略null）

8、总体标准偏离函数: stddev_pop
语法: stddev_pop(col)
返回值: double
说明: 该函数计算总体标准偏离，并返回总体变量的平方根，其返回值与VAR_POP函数的平方根相同

9、样本标准偏离函数: stddev_samp
语法: stddev_samp (col)
返回值: double
说明: 该函数计算样本标准偏离

10．中位数函数: percentile
语法: percentile(BIGINT col, p)
返回值: double
说明: 求准确的第pth个百分位数，p必须介于0和1之间，但是col字段目前只支持整数，不支持浮点数类型

11、中位数函数: percentile
语法: percentile(BIGINT col, array(p1 [, p2]…))
返回值: array
说明: 功能和上述类似，之后后面可以输入多个百分位数，返回类型也为array，其中为对应的百分位数

12、近似中位数函数: percentile_approx
语法: percentile_approx(DOUBLE col, p [, B])
返回值: double
说明: 求近似的第pth个百分位数，p必须介于0和1之间，返回类型为double，但是col字段支持浮点类型。参数B控制内存消耗的近似精度，B越大，结果的准确度越高。默认为10,000。当col字段中的distinct值的个数小于B时，结果为准确的百分位数

13、近似中位数函数: percentile_approx
语法: percentile_approx(DOUBLE col, array(p1 [, p2]…) [, B])
返回值: array
说明: 功能和上述类似，之后后面可以输入多个百分位数，返回类型也为array，其中为对应的百分位数

14、直方图: histogram_numeric
语法: histogram_numeric(col, b)
返回值: array<struct {‘x’,‘y’}>
说明: 以b为基准计算col的直方图信息

五、集合函数

构建

Map类型构建: map
语法: map (key1, value1, key2, value2, …)
说明：根据输入的key和value对构建map类型
Struct类型构建: struct
语法: struct(val1, val2, val3, …)
说明：根据输入的参数构建结构体struct类型
array类型构建: array
语法: array(val1, val2, …)
说明：根据输入的参数构建数组array类型

访问

array类型访问: A[n]
语法: A[n]
操作类型: A为array类型，n为int类型
说明：返回数组A中的第n个变量值。数组的起始下标为0。比如，A是个值为[‘foo’, ‘bar’]的数组类型，那么A[0]将返回’foo’,而A[1]将返回’bar’
struct类型访问: S.x
语法: S.x
操作类型: S为struct类型
说明：返回结构体S中的x字段。比如，对于结构体struct foobar {int foo, int bar}，foobar.foo返回结构体中的foo字段
map类型访问: M[key]
语法: M[key]
操作类型: M为map类型，key为map中的key值
说明：返回map类型M中，key值为指定值的value值。比如，M是值为{‘f’ -> ‘foo’, ‘b’ -> ‘bar’, ‘all’ -> ‘foobar’}的map类型，那么M[‘all’]将会返回’foobar’

运算

array类型长度函数: size(Array<T>)
语法: size(Array)
返回值: int
说明: 返回array类型的长度
Map类型长度函数: size(Map<k .V>)
语法: size(Map<k .V>)
返回值: int
说明: 返回map类型的长度

六、帮助函数

md5(string par) #非对称加密（不可逆）
base64(binary b) #对称加密（可逆）
unbase64(string par) #对称解密（可逆）
aes_encrypt(密码，密钥) #对称加密(可逆) ,密钥是16位,输出是乱码(二进制)，需要用base64()转
aes_decrypt(密码(二进制乱码)，密钥) #对称解密（可逆）需要用unbase64()转为二进制乱码

select md5("123");                           ==>900150983cd24fb0d6963f7d28e17f7
select base64(cast('123' as binary));        ==> YWJj
select unbase64("YWJj");                     ==> 123
select base64(aes_encrypt("123",'1234567890123456'));    ==>Iig1Q00eW0x+EAlVOUTDNw==
select aes_decrypt(unbase64("Iig1Q00eW0x+EAlVOUTDNw=="),'1234567890123456');    ==>123

类型转换函数
类型转换函数: cast
语法: cast(expr as )
返回值: Expected “=” to follow “type”
说明: 返回转换后的数据类型

ZC~Reunion

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hive : 常用函数

Hive 常用函数目录Hive 常用函数一、数学函数1.1 基本运算1.2 关系运算1.3 逻辑运算1.4 数值运算二：时间函数三、字符串函数四、统计函数五、集合函数构建访问运算六、帮助函数一、数学函数1.1 基本运算1、加法操作: +语法: A + B操作类型：所有数值类型说明：返回A与B相加的结果。结果的数值类型等于A的类型和B的类型的最小父类型。比如，int + int 一般结果为int类型，而 int + double 一般结果为double类型2、减法操作: -语法: A
复制链接

扫一扫