Spark SQL如何实现mysql的union操作

本文详细解析了SQL中UNION与UNION ALL的区别,包括它们如何处理重复记录、排序方式以及执行效率上的差异。并介绍了在SparkSQL中如何实现UNION与UNION ALL的功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介


今天聊了聊一个小小的基础题,union和union all的区别:

union all是直接连接,取到得是所有值,记录可能有重复  
union 是取唯一值,记录没有重复  
1、UNION 的语法如下:

[SQL 语句 1]
     UNION
[SQL 语句 2]

2、UNION ALL 的语法如下:

[SQL 语句 1]
     UNION ALL
[SQL 语句 2]


对比总结:

UNION和UNION ALL关键字都是将两个结果集合并为一个,但这两者从使用和效率上来说都有所不同。

1、对重复结果的处理:UNION在进行表链接后会筛选掉重复的记录,Union All不会去除重复记录。

2、对排序的处理:Union将会按照字段的顺序进行排序;UNION ALL只是简单的将两个结果合并后就返回。

从效率上说,UNION ALL 要比UNION快很多,所以,如果可以确认合并的两个结果集中不包含重复数据且不需要排序时的话,那么就使用UNION ALL。


Spark SQL

实际上Spark SQL的DataSet的API是没有union all操作的,只有union操作,而且其union操作就是union all操作。

此时要实现union操作,需要在union之后加上distinct操作。

sales.union(sales).show()

输出结果是有重复数据的

640?wx_fmt=png

需要将操作更改为:

sales.union(sales).distinct().show()


推荐阅读:

Spark SQL的几个里程碑!

Table API&SQL的基本概念及使用介绍

Spark SQL用UDF实现按列特征重分区

640?wx_fmt=png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值