浅析sortByKey算子

最新推荐文章于 2020-12-18 19:33:29 发布

Forrestleo

最新推荐文章于 2020-12-18 19:33:29 发布

阅读量3.6k

点赞数

分类专栏： Spark算子分析文章标签： spark sortByKey

本文链接：https://blog.csdn.net/Forrestleo/article/details/54968921

版权

Spark算子分析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、简介

spark中用于排序的算子主要有两个，sortByKey与sortBy，其中sortBy是引用sortByKey来实现的。下面主要对sortByKey算子进行分析，该方法的实现代码如下：

  def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length) : RDD[(K, V)] = self.withScope
  {
    val part = new RangePartitioner(numPartitions, self, ascending)
    new ShuffledRDD[K, V, V](self, part)
      .setKeyOrdering(if (ascending) ordering else ordering.reverse)
  }

该方法的参数主要有两个，一是指定升降序排序，默认是true，二是指定分区数，默认是父rdd的分区数。实现该方法的代码很简短，一是指定shuffle时的partitioner，二是生成ShuffledRDD，并指定排序规则。
sortByKey方法，使用RangPartitioner，有shuffle操作，并做排序，无疑是一个很消耗性能的。并且要注意的一点，对于要排序的RDD[P]，要满足 P <: Product2[K, V]，而如下

private val ordering = implicitly[Ordering[K]]

K类型要支持排序，详见scala.math的Ordered与Ordering类。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Forrestleo

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark中sortByKey算子详解介绍

CSDN 精品推荐

08-17

338

前面几篇文章讲过 `sortBy` 如何对RDD中元素进行排序，对于sortBy可以处理任何类型，单值类型或者键值类型都可以，不过本文将讲解另外一个算子 `sortByKey` ，该算子仅支持键值类型。

cv-拉普拉斯算子锐化浅析

热门推荐

凌风

12-11

1万+

图像锐化处理的主要目的是突出图像中的细节或者增强被模糊了的细节，这种模糊一般由于错误操作或者是特殊图像获取方法的影响导致的。图像锐化的方法有很多，这里主要说下微分算子的方法来进行图像的锐化处理。总的来说，微分算子的响应强度与图像在该点(应用了算子)的突变程度有关。数学中的微分描述的是连续函数关于各个变量的变化。但是在图像中，是以众多像素点来组成整张图片，所以，虽然图像有两个方向：水平方向（x方

参与评论您还未登录，请先登录后发表或查看评论

SparkRDD算子--sortByKey算子

寒暄的博客

08-03

608

语法 val newRdd = oldRdd.sortByKey([ascending], [numTasks]) ascending控制排序，true为升序，false为降序 numTasks表示分区数源码 def sortByKey(ascending : scala.Boolean = { /* compiled code */ }, numPartitions : scala.Int = { /* compiled code */ }) : org.apache.spark.rdd.RDD[sca

大数据：Spark 算子（一）排序算子sortByKey来看大数据平台下如何做排序

沧海一粟

06-26

8983

1 前言在前面一系列博客中，特别在Shuffle博客系列中，曾今描述过在生成ShuffleWrite的文件的时候，对每个partition会先进行排序并spill到文件中，最后合并成ShuffleWrite的文件，也就是每个Partition里的内容已经进行了排序，在最后的action操作的时候需要对每个executor生成的shuffle文件相同的Partition进行合并，完成Action的操

spark--transform算子--sortByKey

书灯的博客

07-19

315

sortByKey方法用于针对Key做排序，默认是按照升序排序

8、Spark_RDD算子——GroupByKey

weixin_39025328的博客

10-10

238

一、SparkUtils工具类 import org.apache.spark.{SparkConf, SparkContext} object SparkUtils { /** * 默认的master url路径 */ val DEFAULT_MASTER = "local[*]" /** * 默认master为local[*]的获取sparkContext */ def getSparkContext(appName:String):SparkContext

11-04

04-21

本文档是无垠式代码生成器研发阶段的理论探讨过程，对理解无垠式代码生成器源码和和平之翼代码生成器这两种动词算子式代码生成器是很重要的。

03-07

11-21

sortBy和sortByKey区别

Romantic_sir的博客

11-27

2051

拿一个统计单词为例 sortBy： sortBy可以定义排序方式 object sortByTest{ def main(args: Array[String]): Unit = { val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("reduceTest") val sc = ...

sortBy和sortByKey函数详解

jiayunfei521的博客

11-27

1742

在很多应用场景都需要对结果数据进行排序，Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数，分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序，它是从Spark 0.9.0之后才引入的（可以参见SPARK-1063）。而sortByKey函数是对PairRDD进行排序，也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进行说...

158、Spark内核原理进阶之sortByKey算子内部实现原理

ZJ__ZFH的博客

01-24

1919

sortByKey.png sortByKey ShuffledRDD，做shuffle read，将相同的key拉到一个partition中来 mapPartitions，对每个partitions内的key进行全局的排序

SortByKey_scala

Silver_Sword的博客

06-06

390

import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * Created by MC on 2018/6/6. * 二次排序 */object SecondSort { def mySecondSort(sc : SparkContext): String ={ ...

spark之sortBy和sortByKey

weixin_45034355的博客

11-27

1229

排序算法：sort by key和sort by算子

wyqwilliam的博客

08-27

357

sort：

Spark RDD排序算子

吟啸徐行

06-09

5125

RDD排序算子有sortBy和sortByKey两个算作，sortBy算子可以自定义排序规则，而sortByKey只能对Key使用Scala或Spark默认支持的排序规则，如果Scala或Spark不支持排序规则的话，需要使用sortBy自己实现排序规则！ sortByKey的核心实现代码： class OrderedRDDFunctions extends Logging wit

sort算法排序 std_选择排序的具体实现及其原理

weixin_39885383的博客

12-18

266

选择排序的具体实现及其原理在上次的学习过程中，相信大家已经对于冒泡排序的算法已经有了初步认识！接下来我们看看选择排序具体怎么实现！选择排序(Selection-sort)是一种简单直观的排序算法。它的工作原理：首先在未排序序列中找到最小(大)元素，存放到排序序列的起始位置，然后，再从剩余未排序元素中继续寻找最小(大)元素，然后放到已排序序列的末尾。以此类推，直到所有元素均排序完毕。算法分...

spark（SortBy与SortByKey）

TylerPY的博客

11-04

1801

sortBy函数 sortBy函数是在org.apache.spark.rdd.RDD类中实现的。该函数有三个参数：　　第一个参数是一个函数，该函数的也有一个带T泛型的参数，返回类型和RDD中元素的类型是一致的；　　第二个参数是ascending，从字面的意思大家应该可以猜到，这参数决定排序后RDD中的元素是升序还是降序，默认是true，也就是升序；　　第三个参数是numPartition...

threadlocal浅析

09-13

ThreadLocal 是 Java 中的一个类，它提供了一种线程局部变量的机制。线程局部变量是指每个线程都有自己的变量副本，每个线程对该变量的访问都是独立的，互不影响。 ThreadLocal 主要用于解决多线程并发访问共享变量...