SparkSQL中的Sort实现（一）

最新推荐文章于 2024-05-16 22:05:01 发布

狗叔

最新推荐文章于 2024-05-16 22:05:01 发布

阅读量9.5k

点赞数 1

分类专栏： Spark 大数据畅谈文章标签： sparksql sort 大数据 spark 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/asongoficeandfire/article/details/53728182

版权

引言

Sort操作也是SQL中常用的操作，一般来说，Sort操作在SQL语句中有两种体现，即Sort by和Order by。这两种的区别是前者是针对分区内排序，而后者是对全表进行一个排序。那有的人问了，全表排序可以理解，那分区排序针对于什么场景呢？通常是在SQL语句中搭配distributed by一起使用，先将表按照某些字段进行分区，然后在分区内进行排序，能够很好的看清分区内的数据分布。

Sort by和Order by

SparkSQL中也不例外，Sort by和Order by这两种语法均支持。而Sort by仅作为分区内排序，是Order by排序过程的一部分。即Order by先针对数据按照字段进行分区，再在每个分区内对数据进行排序（即Order by的操作）。表示成图如下：

如上图，第一个红色箭头表示按照顺序重分区，保证第n-1个分区内的数据在排序上前于第n个分区内的数据。第二个红色箭头是分区内排序，即对第n个分区，保证第m-1个元素在顺序上早于第m个元素。经过这两个步骤之后，就能保证全表是一个有序的集合了。

而Sort by只进行第二个步骤，即只保证分区内的数据有序。

顺序分区的实现

通常进行shuffle，Partitioner按照hash co

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL中的Sort实现（一）

SparkSQL中同样支持Order by和Sort by两种操作，本篇文章简单介绍Order by的分区间排序。
复制链接

扫一扫

专栏目录

狗叔 CSDN认证博客专家 CSDN认证企业博客

码龄15年

21: 原创

18万+: 周排名

72万+: 总排名

26万+: 访问

: 等级

1702: 积分

67: 粉丝

33: 获赞

31: 评论

40: 收藏

私信

关注

热门文章

分类专栏

最新评论

SparkSQL中的Sort实现（二）
Me丶kang: 您好，请问spark sql默认是timesort还是Radix sort呢，还是会自适应？通过哪个参数配置？
Scala从零开始：中缀表示法和后缀表示法
a18792721831: 后缀表达式在scala2.13.1中需要导入一个包，否则会报异常，编译不通过： [code=plain] Error:(55, 34) postfix operator getName needs to be enabled by making the implicit value scala.language.postfixOps visible. ---- This can be achieved by adding the import clause 'import scala.language.postfixOps' or by setting the compiler option -language:postfixOps. See the Scaladoc for value scala.language.postfixOps for a discussion why the feature needs to be explicitly enabled. println(new Liquor("Whisky") getName) [/code] 需要在package后面加一句 [code=plain] import scala.language.postfixOps [/code]
SparkSQL的3种Join实现
张叫兽的技术研究院回复 XEBYHJJ: 你抄我来我抄你，网络上到处都是这几个条件，能够broadcast还hash个毛啊
Efficient Graph-Based Image Segmentation论文思路
秋月的私语: 请教一下博主，博文中提到的“NNG算法”有具体文献吗，我看“Efficient Graph-Based Image Segmentation”的源代码只使用了欧氏距离，而并没有实现NNG算法，或者博主知道哪里可以找到NNG算法相关的内容吗？网上搜索了一下相关内容很少，这一点“当图像为三通道图像时，将算法应用于全部三个通道，只有当三个通道全部给出合并区域的建议时才合并区域。”对于我现在所做的图割项目很重要，期待博主的回复，谢谢了。
Scala从零开始：函数参数的传名调用（call-by-name）和传值调用（call-by-value）
TheManOfCoding: 如果参数是一个函数的话，应该算是call-by-name吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。