大数据工具——Hive(高级)

一、查询基本语法

1.查询基本结构

写顺序

select 
from
join on 
group by 
having
order by
sort by
limit
union / union all

执行顺序

from
on
join
where
group by 
having
select
distinct
order by
limit

查询注意事项

尽量不要使用子查询、尽量不要使用 in not in 
select * from aa1 
where id in (select id from bb); 
查询尽量避免join连接查询,但是这种操作咱们是永远避免不了的。 
查询永远是小表驱动大表(永远是小结果集驱动大结果集)

二、Join的语法与特点

1. 表之间的关系

在关系型数据库里面,每个实体有自己的一张表(table),所有属性都是这张表的字段 (field),表与表之间根据关联字段"连接"(join)在一起。所以,表的连接是关系型数据 库的核心问题。

所谓"连接",就是两张表根据关联字段,组合成一个数据集。
问题是,两张表的关联字段的值往往是不一致的,如果关联字段不匹配,怎么处理?
比如,表 A 包含张三和李四,表 B 包含李四和王五,匹配的只有李四这一条记录

只返回两张表匹配的记录,这叫内连接(inner join)。
返回匹配的记录,以及表 A 多余的记录,这叫左连接(left join)。
返回匹配的记录,以及表 B 多余的记录,这叫右连接(right join)。
返回匹配的记录,以及表 A 和表 B 各自的多余记录,这叫全连接(full join)。

在这里插入图片描述

2. Hive专有Jion的特点
2.1 left semi join
在hive中,有一种专有的join操作,left semi join,我们称之为半开连接。它是left join的一种优化形式,只能查询左表的信息,主要用于解决hive中左表的数据是否存在的问题。相当于exists关键字的用法。

2.2 子查询

hive对子查询支持不是很友好,特别是 "="问题较多;
分区字段对outer join 中的on条件无效,对inner join 中的on条件有效

2.3 map-side join
如果所用的表中有小表,将会把小表缓存在内存中,然后在map端进行连接查找。hive在map端 查找时会减小整体查询量,从内存中读取缓存的小表数据,效率较快,还省去大量数据传输和shuffle耗时

三、查询字句

1.where

后不能跟聚合函数

2.group by:

分组,通常和聚合函数

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NoMissU

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值