2020.9.22课堂笔记(Hive函数及性能优化)

一.Hive函数分类

从输入输出角度分类

  • 标准函数:一行数据中的一列或多列为输入,结果为单一值
  • 聚合函数:多行的零列到多列为输入,结果为单一值
  • 表生成函数:零个或多个输入,结果为多列或多行

从实现方式分类

  • 内置函数
  • 自定义函数
    UDF:自定义标准函数(一行数据中的一列或多列为输入,结果为单一值)
    UDAF:自定义聚合函数(多行的零列到多列为输入,结果为单一值)
    UDTF:自定义表生成函数(零个或多个输入,结果为多列或多行)

内置函数
Hive提供大量内置函数供开发者使用
标准函数:
(1)字符函数

返回值 函数 描述
string concat(string|binary A, string|binary B…) 对二进制字节码或字符串按次序进行拼接
int instr(string str, string substr) 查找字符串str中子字符串substr出现的位置
int length(string A) 返回字符串的长度
int locate(string substr, string str[, int pos]) 查找字符串str中的pos位置后字符串substr第一次出现的位置
string lower(string A) /upper(string A) 将字符串A的所有字母转换成小写/大写字母
string regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT) 按正则表达式PATTERN将字符串中符合条件的部分替换成REPLACEMENT所指定的字符串
array split(string str, string pat) 按照正则表达式pat来分割字符串str
string substr(string|binary A, int start, int len)
substring(string|binary A, int start, int len)
对字符串A,从start位置开始截取长度为len的字符串并返回
string trim(string A) 将字符串A前后出现的空格去掉
map str_to_map(text[, delimiter1, delimiter2]) 将字符串str按照指定分隔符转换成Map
binary encode(string src, string charset) 用指定字符集charset将字符串编码成二进制值

(2)类型转换函数

返回值 类型转换函数 描述
“type” cast(expr as <type>) 将expr转换成type类型 如:cast(“1” as BIGINT) 将字符串1转换成了BIGINT类型
binary binary(string|binary) 将输入的值转换成二进制

(3)数学函数

返回值 数学函数 描述
DOUBLE round(DOUBLE a) 返回对a四舍五入的BIGINT值
binary round(DOUBLE a, INT d) 返回对a四舍五入并保留d位小数位的值
BIGINT floor(DOUBLE a) 向下取整,如:6.10->6 -3.4->-4
DOUBLE rand(INT seed) 返回一个DOUBLE型随机数,seed是随机因子
DOUBLE power(DOUBLE a, DOUBLE p) 计算a的p次幂
DOUBLE abs(DOUBLE a) 计算a的绝对值

(4)日期函数

返回值 函数 描述
string from_unixtime(bigint unixtime[, string format]) 将时间戳转换成format格式
int unix_timestamp() 获取本地时区下的时间戳
bigint unix_timestamp(string date) 将格式为yyyy-MM-dd HH:mm:ss的时间字符串转换成时间戳
string to_date(string timestamp) 返回时间字符串的日期部分
int year(string date),类似的有:
month/day/hour/minute/second/weekofyear
返回时间字符串的年份部分
返回月/天/时/分/秒/第几周
int datediff(string enddate, string startdate) 计算开始时间到结束时间相差的天数
string date_add(string startdate, int days) 从开始时间startdate加上days
string date_sub(string startdate, int days) 从开始时间startdate减去days
date current_date 返回当前时间的日期
timestamp current_timestamp 返回当前时间戳
string date_format(date/timestamp/string ts, string fmt) 按指定格式返回时间date 如:date_format(“2016-06-22”,“MM-dd”)=06-22

(5)集合函数

返回值 函数 描述
int size(Map<K.V>) 返回map中键值对个数
int size(Array) 返回数组的元素数量
array map_keys(Map<K.V>) 返回map中的所有key
array map_values(Map<K.V>) 返回map中的所有value
boolean array_contains(Array, value) 如该数组Array包含value返回true。,否则返回false
array sort_array(Array) 对数组进行排序

(6)条件函数

返回值 函数 描述
T if(boolean testCondition, T valueTrue, T valueFalseOrNull) 如果testCondition 为true就返回valueTrue,否则返回valueFalseOrNull
T nvl(T value, T default_value) value为NULL返回default_value,否则返回value
T COALESCE(T v1, T v2, …) 返回第一非null的值,如果全部都为NULL就返回NULL
<
org.apache.hive.jdbc.HiveDriver是Apache Hive项目的JDBC驱动程序。Hive是一个基于Hadoop的数据仓库基础设施,它提供了一个SQL类似的查询语言(HiveQL)来处理存储在Hadoop集群中的大规模数据。 要下载org.apache.hive.jdbc.HiveDriver,可以按照以下步骤进行: 1. 打开Apache Hive项目的官方网站,可以在https://hive.apache.org/上找到。 2. 导航到“下载”页面,该页面通常位于网站导航栏的顶部或底部。 3. 在下载页面上,查找与你的操作系统和Java版本兼容的Hive JDBC驱动程序。 4. 单击下载链接以开始下载驱动程序。根据你的网速和文件大小,下载过程可能需要一些时间。 5. 下载完成后,将下载的JAR文件保存到你指定的文件夹中。 下载Hive JDBC驱动程序后,你可以在Java项目中使用它来连接和查询Hive服务器。只需将驱动程序JAR文件添加到项目的类路径中,然后使用以下代码示例来加载并注册HiveDriver: ``` import java.sql.DriverManager; import java.sql.Connection; public class HiveDriverExample { public static void main(String[] args) { try { // 加载HiveDriver类 Class.forName("org.apache.hive.jdbc.HiveDriver"); // 建立Hive服务器连接 Connection con = DriverManager.getConnection("jdbc:hive2://localhost:10000/default", "", ""); // 在连接上执行查询语句等操作 // ... // 关闭连接 con.close(); } catch (Exception e) { e.printStackTrace(); } } } ``` 通过以上步骤,你就可以成功下载并使用org.apache.hive.jdbc.HiveDriver来连接和操作Hive服务器。记得根据自己的具体环境和需求进行配置和使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值