hive表连接总结

inner join

内连接返回两个表的交集:

select  
from user_list_1 a inner join user_list_2 b on a.user_id = b.user_id;

在这里插入图片描述
注意表连接时,必须进行***重命名***;
on 后面的连接条件必须起到唯一键值的作用;
inner 可以省略,效果一样;

在2019年购买后又退款的用户

select a.user_name
from 
		(select distinct user_name
		from user_trade
		whert year(dt)='2019')  a
		inner join
		(select distinct user_name
		from user_refund
		where year(dt)='2019') b 
		on a.user_name = b.user_name

注意:先去重,再做表连接,执行效率高

在2017年和2018年都购买的用户

SELECT 
FROM 
	(SELECT distinct user_name
		FROM user_trade
		where year(dt)='2017') a 
		JOIN
		(SELECT distinct user_name
		FROM user_trade
		where year(dt) = '2018')  b
		on a.user_name = b.user_name;

在2017年、2018年和2019年都有交易的用户

第一种写法:

select distinct a.user_name
from trade_2017  a 
join trade_2018 b on a.user_name = b.user_name
join trade_2019 c on b.user_name = b.user_name;

第二种写法:

select a.user_name
from 
		(select distinct user_name
		from trade_2017) a
		join 
		(select distinct user_name
		from trade_2018 ) b on a.user_name = b.user_name
		join
		(select distinct user_name
		from trade_2019) c on b.user_name=c.user_name;

表的数量级很大时,推荐第二种写法

left join

对表一和表二进行左连接:

select *
from user_list_1 left join user_list_2 on a.user_id=b.user_id;

在这里插入图片描述
进行左连接后,以左边的表为全集,返回能够匹配右边表的结果,如果没有匹配上,则为NULL
在这里插入图片描述

right join

以右边的表为全集,返回能够匹配右边表的结果,如果没有匹配上,则为NULL
在这里插入图片描述

在user_list_1表中,但是不在user_list-2中的用户

在这里插入图片描述

select a.user_id,
		a.user_name
from 
     user_list_1 a 
    left join
	user_list_2 b
	on a.user_id=b.user_id
where b.user_name is null

在2019年购买,但是没有退款的用户

select a.user_name
from
		(select distinct user_name
		from user_trade
		where year(dt)=2019) a 
		left join
		(select distinct user_name
		from user_refund
		where year(dt) = 2019) b on a.user_name= b.user_name
where b.user_name is null ;

在2019年购买用户的学历分布

select b.user_name,
		count(a.user_name)
from
	(select distict user_name
	from user_trade
	where year(dt) = 2019)  a 
	left join
	(select distinct user_name,
				get_json_object(extral,'$.education') as education
	from user_info)  b on a.user_name=b.user_name
group by b.education;

在这里插入图片描述

在2017年和2018年都购买,但是没有在2019年购买的用户

select a.user_name
from
		(select distinct user_name
		from trade_2017) a
		inner join
		(select distinct user_name
		from trade_2018) b on a.user_name = b.user_name
		left join 
		(select distinct user_name
		from trade_2019 ) c on b.user_name=c.user_name
where c.user_name is null;

a.user_name 换成b.user_name 也可以

full join

对表一和表二进行全连接

select *
from user_list_1 a  full join user_list_2 b on a.user_id=b.user_id

在这里插入图片描述

在这里插入图片描述

user_list_1和user_list_2 所有的用户

select coalesce(a.user_name,b.user_name)
from  user_list_1 a full join user_list_2 b on a.user_id =b.user_id;

在这里插入图片描述
coalesce(expression_1 , ex_2 ,ex_3…)依次参考各个表达式,遇到非null停止并返回该值;

union all

user_list_1 和user_list_3合并在一起

select user_id, user_name
from user_list_1 
union all
select user_id , user_name
from user_list_3;

在这里插入图片描述
注意:
字段名称顺序必须一致
没有连接条件

2017年-2019年所有有交易的用户数

第一种写法:union all

select  count(distinct a.user_name),
			count(a.user_name)
from
	(select user_name
	from trade_2017
	union all
	select user_name
	from trade_2018
	union all
	select user_name
	from trade_2019 ) a

第二种写法:union

select  count(distinct a.user_name),
			count(a.user_name)
from
	(select user_name
	from trade_2017
	union 
	select user_name
	from trade_2018
	union 
	select user_name
	from trade_2019 ) a

union all 和 union 区别:

union all :
不会去除重复记录;
不会排序,合并两个结果够返回;
效率更快;
不去重不排序

union:
对表连接后,筛选掉重复的记录;
按照字段的顺序进行排序;】
效率慢
去重排序;
PS:对于比较大的表推荐先去重,再石勇union all ;

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值