Hive QL常见问题总结

最新推荐文章于 2023-03-09 16:18:09 发布

skj1995

最新推荐文章于 2023-03-09 16:18:09 发布

阅读量954

点赞数

分类专栏： HQL 文章标签： sql

本文链接：https://blog.csdn.net/skj1995/article/details/113799829

版权

HQL 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

首先是常用的一些官方文档地址：
（1）官网文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
（2）Hive简介及基础架构：
https://geek-docs.com/hive/hive-tutorial/introduction-of-hive.html
（3）Hive教程：
https://www.yiibai.com/hive/hiveql_joins.html
（4）SQL全部详细教程，一些跟Hive中一样，有参考意义：
https://www.w3school.com.cn/sql/sql_wildcards.asp
查看某个函数：desc function hash
显示某个函数的扩展信息： desc function extended hash
显示所有函数名称：show functions
统计表的所有条数或者表中某列数据的条数
Sum(1)和count(*)一样，都是用来统计条数，将null值的条数也会计算在内，要想过滤掉null值的条数，使用count(column_name)
参考链接：
https://blog.csdn.net/longshenlmj/article/details/44858481
根据某列去重：
使用district关键字
参考链接：
https://blog.csdn.net/lsxy117/article/details/50387395/
hash函数的使用
Hive中使用hash函数，可以将汉字字符串，比如将城市名转换为int类型hash值
Hive表中case的使用
下面这一段是根据city这个城市名列，将城市分成1,2,3等级，最后以列cityLevel的形式存储。

select 
    uid,
    CASE
        when city RLIKE "上海|北京" as 1
        when city RLIKE "合肥|苏州" as 2
        else 3
    end as cityLevel
from TABLE
where pt = "${env.YYYYMMDD}"

计算日期跟当前日期的时间差
需求如下：有一个数据格式未知的时间列，我们希望计算跟当前时间的天数差距是否在360天以内，在内的都计算进来。
我们首先需要提取这个时间列里面的日期，需要精确到日。我们使用函数：
to_data，举例如下：
select to_date('2018-12-08 10:03:01');--2018-12-08 返回日期时间字段中的日期部分
然后跟当前时间比较，提取相应的信息即可：

to_date(pay_time) >= '${env.YYYYMMDD_P364D}'

,p表示当前时间向前多少天

Select 
Ordr
Where to_date(pay_time) >= '${env.YYYYMMDD_P364D}'

取其他时间粒度，比如年，月的值可以参考：
https://blog.csdn.net/weixin_38750084/article/details/93382634
还有一种方式：

split(pay_time,' ')[0] between date_sub('${env.YYYYMMDD}', 29) and '${env.YYYYMMDD}'

这种方式需要知道pay_time的时间串具体格式，不太实用。

Having关键字
having根据group by之后的的分组统计筛选，也是一种筛选方式，跟where的区别是：
where作用于表中的列，having作用于查询结果中的列
where后不能写分组函数，having后可以使用分组函数
参考链接：
https://blog.csdn.net/a3125504x/article/details/106987371
判断某表中类型为array类型的列中是否包含某个字段
比如现有table1
Col1 col2 col3
1 a [a,b]
2 b [c,b]
使用array_contains：

Select * from table1 where array_contains(col3,’a’)

参考链接：
https://blog.csdn.net/junjie20082008/article/details/106123899/

对于无列名列的读取
如果我们运算出来的结果忘记指定列名了，比如：

Select max(col1), col1 from table1 group by col1

那么结果的列名就会成为_col2，col1之类的
我们应该怎么获取_col2这一列的值呢？加反引号，比如：

Select `_col2` from table2

skj1995

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
Hive QL常见问题总结

首先是常用的一些官方文档地址：（1）官网文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF（2）Hive简介及基础架构：https://geek-docs.com/hive/hive-tutorial/introduction-of-hive.html（3）Hive教程：https://www.yiibai.com/hive/hiveql_joins.html（4）SQL全部详细教程，一些跟Hive中一样.
复制链接

扫一扫