Hive QL常见问题总结

  1. 首先是常用的一些官方文档地址:
    (1)官网文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
    (2)Hive简介及基础架构:
    https://geek-docs.com/hive/hive-tutorial/introduction-of-hive.html
    (3)Hive教程:
    https://www.yiibai.com/hive/hiveql_joins.html
    (4)SQL全部详细教程,一些跟Hive中一样,有参考意义:
    https://www.w3school.com.cn/sql/sql_wildcards.asp
    查看某个函数:desc function hash
    显示某个函数的扩展信息: desc function extended hash
    显示所有函数名称:show functions
  2. 统计表的所有条数或者表中某列数据的条数
    Sum(1)和count(*)一样,都是用来统计条数,将null值的条数也会计算在内,要想过滤掉null值的条数,使用count(column_name)
    参考链接:
    https://blog.csdn.net/longshenlmj/article/details/44858481
  3. 根据某列去重:
    使用district关键字
    参考链接:
    https://blog.csdn.net/lsxy117/article/details/50387395/
  4. hash函数的使用
    Hive中使用hash函数,可以将汉字字符串,比如将城市名转换为int类型hash值
  5. Hive表中case的使用
    下面这一段是根据city这个城市名列,将城市分成1,2,3等级,最后以列cityLevel的形式存储。
select 
    uid,
    CASE
        when city RLIKE "上海|北京" as 1
        when city RLIKE "合肥|苏州" as 2
        else 3
    end as cityLevel
from TABLE
where pt = "${env.YYYYMMDD}"
  1. 计算日期跟当前日期的时间差
    需求如下:有一个数据格式未知的时间列,我们希望计算跟当前时间的天数差距是否在360天以内,在内的都计算进来。
    我们首先需要提取这个时间列里面的日期,需要精确到日。我们使用函数:
    to_data,举例如下:
    select to_date('2018-12-08 10:03:01');--2018-12-08 返回日期时间字段中的日期部分
    然后跟当前时间比较,提取相应的信息即可:
to_date(pay_time) >= '${env.YYYYMMDD_P364D}'

,p表示当前时间向前多少天

Select 
Ordr
Where to_date(pay_time) >= '${env.YYYYMMDD_P364D}'

取其他时间粒度,比如年,月的值可以参考:
https://blog.csdn.net/weixin_38750084/article/details/93382634
还有一种方式:

split(pay_time,' ')[0] between date_sub('${env.YYYYMMDD}', 29) and '${env.YYYYMMDD}'

这种方式需要知道pay_time的时间串具体格式,不太实用。

  1. Having关键字
    having根据group by之后的的分组统计筛选,也是一种筛选方式,跟where的区别是:
    where作用于表中的列,having作用于查询结果中的列
    where后不能写分组函数,having后可以使用分组函数
    参考链接:
    https://blog.csdn.net/a3125504x/article/details/106987371
  2. 判断某表中类型为array类型的列中是否包含某个字段
    比如现有table1
    Col1 col2 col3
    1 a [a,b]
    2 b [c,b]
    使用array_contains:
Select * from table1 where array_contains(col3,’a’)

参考链接:
https://blog.csdn.net/junjie20082008/article/details/106123899/

  1. 对于无列名列的读取
    如果我们运算出来的结果忘记指定列名了,比如:
Select max(col1), col1 from table1 group by col1

那么结果的列名就会成为_col2,col1之类的
我们应该怎么获取_col2这一列的值呢?加反引号,比如:

Select `_col2` from table2 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

skj1995

你的鼓励是我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值