2020.9.22课堂笔记(Hive函数及性能优化)

最新推荐文章于 2024-05-04 17:13:49 发布

超可爱慕之

最新推荐文章于 2024-05-04 17:13:49 发布

阅读量380

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_48758256/article/details/108745158

版权

一.Hive函数分类

从输入输出角度分类

从实现方式分类

内置函数
自定义函数
UDF：自定义标准函数（一行数据中的一列或多列为输入，结果为单一值）
UDAF：自定义聚合函数（多行的零列到多列为输入，结果为单一值）
UDTF：自定义表生成函数（零个或多个输入，结果为多列或多行）

内置函数
Hive提供大量内置函数供开发者使用
标准函数：
(1)字符函数

返回值	函数	描述
string	concat(string\|binary A, string\|binary B…)	对二进制字节码或字符串按次序进行拼接
int	instr(string str, string substr)	查找字符串str中子字符串substr出现的位置
int	length(string A)	返回字符串的长度
int	locate(string substr, string str[, int pos])	查找字符串str中的pos位置后字符串substr第一次出现的位置
string	lower(string A) /upper(string A)	将字符串A的所有字母转换成小写/大写字母
string	regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)	按正则表达式PATTERN将字符串中符合条件的部分替换成REPLACEMENT所指定的字符串
array	split(string str, string pat)	按照正则表达式pat来分割字符串str
string	substr(string\|binary A, int start, int len) substring(string\|binary A, int start, int len)	对字符串A,从start位置开始截取长度为len的字符串并返回
string	trim(string A)	将字符串A前后出现的空格去掉
map	str_to_map(text[, delimiter1, delimiter2])	将字符串str按照指定分隔符转换成Map
binary	encode(string src, string charset)	用指定字符集charset将字符串编码成二进制值

(2)类型转换函数

返回值	类型转换函数	描述
“type”	cast(expr as <type>)	将expr转换成type类型如：cast(“1” as BIGINT) 将字符串1转换成了BIGINT类型
binary	binary(string\|binary)	将输入的值转换成二进制

(3)数学函数

(4)日期函数

返回值	函数	描述
string	from_unixtime(bigint unixtime[, string format])	将时间戳转换成format格式
int	unix_timestamp()	获取本地时区下的时间戳
bigint	unix_timestamp(string date)	将格式为yyyy-MM-dd HH:mm:ss的时间字符串转换成时间戳
string	to_date(string timestamp)	返回时间字符串的日期部分
int	year(string date)，类似的有： month/day/hour/minute/second/weekofyear	返回时间字符串的年份部分返回月/天/时/分/秒/第几周
int	datediff(string enddate, string startdate)	计算开始时间到结束时间相差的天数
string	date_add(string startdate, int days)	从开始时间startdate加上days
string	date_sub(string startdate, int days)	从开始时间startdate减去days
date	current_date	返回当前时间的日期
timestamp	current_timestamp	返回当前时间戳
string	date_format(date/timestamp/string ts, string fmt)	按指定格式返回时间date 如：date_format(“2016-06-22”,“MM-dd”)=06-22

(5)集合函数

返回值	函数	描述
int	size(Map<K.V>)	返回map中键值对个数
int	size(Array)	返回数组的元素数量
array	map_keys(Map<K.V>)	返回map中的所有key
array	map_values(Map<K.V>)	返回map中的所有value
boolean	array_contains(Array, value)	如该数组Array包含value返回true。，否则返回false
array	sort_array(Array)	对数组进行排序

(6)条件函数

返回值	函数	描述
T	if(boolean testCondition, T valueTrue, T valueFalseOrNull)	如果testCondition 为true就返回valueTrue,否则返回valueFalseOrNull
T	nvl(T value, T default_value)	value为NULL返回default_value,否则返回value
T	COALESCE(T v1, T v2, …)	返回第一非null的值，如果全部都为NULL就返回NULL
<