01 Hive SQL基础知识

最新推荐文章于 2024-08-07 10:49:21 发布

WAYDN412

最新推荐文章于 2024-08-07 10:49:21 发布

阅读量2.6k

点赞数 1

分类专栏：数据分析文章标签：数据分析 hive

本文链接：https://blog.csdn.net/WAYDN412/article/details/114086512

版权

本文详细介绍了Hive SQL的基础知识，包括关键字、执行顺序、SQL优化和数据仓库的基本概念。讨论了JOIN的执行逻辑、位运算在数据分析中的应用、窗口函数以及表结构处理语句。同时，讲解了数据仓库的层级划分、建表规范和埋点基础知识，为大数据分析提供了入门指南。

摘要由CSDN通过智能技术生成

前言

本文主要讲的是一些Hive SQL的基础知识，希望能帮助到想要接触大数据分析和刚接触大数据分析的同学。实际永远比所见的复杂，但万丈高楼平地起，一切来源于基础。

关键字：初步了解sql每个关键字的功能

执行顺序/执行计划：看懂执行步骤，有助优化sql和排查sql执行遇到的问题

SQL优化/特殊运算/特殊函数：提高SQL的执行效率

补充知识：表结构处理语句/SQL书写规范/数据仓库基础知识

关键字

select  a.col1,             
        count(distinct b.col2) as col2 --count:聚合函数，依据gourp条件汇总计算
  from  (
        select  *            --select:选取数据列
          from  table1      --from:获取源数据
         where  col1 > 5     --where:过滤源数据
           and  (col2 < 5
                or col3 = 5)
        ) as a                --as:赋予表别名
  left  join table2 b      --left/right/inner/full join:将两份源数据进行合并
   on  a.col1 = b.col1       --on:关联条件
inner  join table3 c       
   on  a.col1 = c.col1       
 full  join table4 d       
   on  a.col1 = d.col1  
group  by a.col1             --group by:分组,聚合运算的汇总依据【类比excel上的透视表】
having count(distinct b.col2) > 0 --having:对聚合后的数据结果进行过滤
order  by col2               --order by:对col2排序

join的执行逻辑

左右表形成笛卡尔积的数据集【a*b条数】
根据关联条件过滤数据集
添加外部行，补全主表【即left join 添加所有右表为null的左表；full join 添加所有右表为null的左表和所有左表为null的右表】

关键字执行顺序

select  a.user_id,
        count(distinct b.guid) as cnt 
  from  table1 a 
  left  join table1 b
    on  a.user_id = b.user_id 
 where  b.last_login_date >= '2020-01-01'
 group  by a.user_id
having  cnt > 1
 order  by cnt desc

from:获取源数据
join:将两份源数据进行合并
where:过滤源数据【注：左表的where条件会优先于join执行】