Spark sort算子

最新推荐文章于 2023-12-26 08:54:52 发布

QYHuiiQ

最新推荐文章于 2023-12-26 08:54:52 发布

阅读量627

点赞数

分类专栏：大数据之Spark 文章标签： spark 大数据 scala

本文链接：https://blog.csdn.net/QYHuiiQ/article/details/127521714

版权

大数据之Spark 专栏收录该内容

19 篇文章 0 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

Test 1：

在多个分区的情况下，如果使用sort，会将所有分区的数据放在一起进行排序，排序后再重新分区，而不是在各自的分区内进行排序，在该算子实现过程中是有shuffle操作的。

package test.wyh.wordcount

import org.apache.spark.{SparkConf, SparkContext}

object TestSort {
  def main(args: Array[String]): Unit = {

    //建立Spark连接
    val sparkConf = new SparkConf().setMaster("local").setAppName("TestWordCountApp")
    val sc = new SparkContext(sparkConf)

    val rdd = sc.makeRDD(List(3,1,6,5,2,4), 2)
    val sortRDD = rdd.sortBy(element=>element)
    sortRDD.saveAsTextFile("output")

    //关闭连接
    sc.stop()

  }

}

运行结果：

可以看到结果中是将原RDD中的所有数据放一起进行排序

了解本专栏

超级会员免费看

QYHuiiQ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark sort算子

在多个分区的情况下，如果使用sort，会将所有分区的数据放在一起进行排序，排序后再重新分区，而不是在各自的分区内进行排序，在该算子实现过程中是有shuffle操作的。默认排序是升序，也就是sortBy中的参数二表示升序默认是true，如果需要降序排序，可以将其设置为false。可以看到结果中是将原RDD中的所有数据放一起进行排序的，之后再进行分区。可以看到运行结果也是先对全局RDD进行排序，再分组。对于字符串类型的数据，会按照字典序进行排序。
复制链接

扫一扫