Spark学习之旅（一）SortBy

最新推荐文章于 2024-05-30 13:59:31 发布

yoruichi_7

最新推荐文章于 2024-05-30 13:59:31 发布

阅读量6k

点赞数

分类专栏： spark 文章标签： spark scala

本文链接：https://blog.csdn.net/sheyuedeye/article/details/43406179

版权

学习Spark有段时间了，部署的部分先不写了，以后有时间会补上，现在开始记录一下使用过程。

先看一下经典的word count例子

    val sc = new SparkContext(conf)
    val f = sc.textFile("hdfs://192.168.1.12:9000/users/spark/README.txt", 2)
    val r = f.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)
    r.foreach(println)

如此可以得到的每个单词出现的次数。下面就会出现另一个问题了，我想看出现最多的次数的单词，或者说，我先看按照出现次数排序的单词趋势。

查看RDD的API，看到有sortByKey这个函数。于是，我们可以做如下的操作来满足我们的需求

    val r = f.flatMap(line => line.split(" ")

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yoruichi_7

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark学习之旅（一）SortBy

spark学习之sortBy
复制链接

扫一扫

专栏目录

Spark中sortBy算子详解介绍

CSDN 精品推荐

08-16

318

很多时候我们需要排序RDD中的值，对于值来说一般有单值类型、键值类型以及更为复杂的类型，如果我们想按照自定义规则排序，那么可以使用 `sortBy` 算子来实现该需求，这个算子可以将每个元素根据传入的函数映射成为一个key，然后按照这个key进行排序。

Spark 算子之sortBy使用

congge_study的博客

04-23

1966

Spark 算子之sortBy使用

参与评论您还未登录，请先登录后发表或查看评论

spark（SortBy与SortByKey）

TylerPY的博客

11-04

1776

sortBy函数 sortBy函数是在org.apache.spark.rdd.RDD类中实现的。该函数有三个参数：　　第一个参数是一个函数，该函数的也有一个带T泛型的参数，返回类型和RDD中元素的类型是一致的；　　第二个参数是ascending，从字面的意思大家应该可以猜到，这参数决定排序后RDD中的元素是升序还是降序，默认是true，也就是升序；　　第三个参数是numPartition...

RDD实战：排序算子 - sortBy()

最新发布

howard2005的专栏

05-30

352

通过这个实战案例，我们可以学习到如何使用Spark的`sortBy()`算子对RDD进行复杂的排序操作，以及如何通过过滤和合并操作来实现多级排序规则。这在处理大型数据集时非常有用，可以帮助我们根据特定的业务规则对数据进行排序和组织。

图解Spark排序算子sortBy的核心源码

朱季谦

12-06

1404

图解Spark排序算子sortBy的核心源码

Spark中的排序SortBy

jim8973的博客

09-13

2102

1、Tuple类型 val products = sc.parallelize(List("屏保 20 10","支架 20 1000","酒精棉 5 2000","吸氧机 5000 1000")) val productData = products.map(x=>{ val splits = x.split(" ") val name = splits(0) val price = splits(1).toDouble val amount

Saprk排序

fighting

03-25

1157

1、基础排序算子sortBy和sortByKey 在Spark中存在两种对RDD进行排序的函数，分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序，它是从Spark0.9.0之后才引入的。而sortByKey函数是对PairRDD进行排序，也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进行说明。 1.1sortBy sortBy是在...

11.spark学习之旅之hive（五）

01-07

文章目录1. hive概述1.1. 简介1.2. 为什么要使用hive1.3. hive的特点1.4. [架构](https://blog.csdn.net/u013595419/article/details/79632928)1.5. hive的基本操作1.6. hive的数据存储2. hive的安装部署2.1....

9. spark学习之旅之scala（三）

01-20

为什么要学习scala1.3. [Scala官网](https://www.scala-lang.org/)1.4. `Spark,Kafka,Flink都是由Scala语言编写`1.5. Java能做的，Scala都能做，Java不能做的，Scala也能做。Scala可以任意调用Java的接口1.6. Scala...

spark学习笔记一

01-20

一.spark与hadoop比较 Spark是一个计算框架相当于Hadoop的MapReduce。Hadoop中是包含计算框架MapReduce和分布式文件系统HDFS，更广泛的讲是还包含其生态系统上的其他系统比如Hbase和Hive等。 Spark相比MapReduce的...

Python学习笔记——大数据之SPARK核心

01-27

【Python学习笔记——大数据之SPARK核心】 Spark作为大数据处理框架的核心在于其Resilient Distributed Datasets（RDD），这是一种弹性分布式数据集。RDD是Spark设计的基石，它将大量数据分布在多台机器上，可以...

Spark之旅：大数据产品的一种测试方法与实现

02-24

spark作为现在主流的分布式计算框架，已经融入到了很多的产品中作为ETL的解决方案。而我们如果想要去测试这样的产品就要对分布式计算的原理有个清晰的认知并且也要熟悉分布式计算框架的使用来针对各种ETL场景设计...

Spark中RDD的sortBy排序的5种实现方法

muyingmiao的专栏

09-27

9814

在RDD，ortBy可以指定对键还是value进行排序，sortBy可以通过下面5中方式实现排序假如数据的格式如下，list中元素中分别为名称、单价、数量，字符之间用空格连接，要实现按照单价和数量降序 val products = sc.parallelize(List("A 100 10","B 200 20","C 200 30","D 400 30")) 1.通过Tuple方式，按照...

Spark: sortBy和sortByKey函数详解

热门推荐

hellojoy的博客

07-23

1万+

在很多应用场景都需要对结果数据进行排序，Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数，分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序，它是从Spark 0.9.0之后才引入的（可以参见SPARK-1063）。而sortByKey函数是对PairRDD进行排序，也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进行说...

spark之sortBy和sortByKey

weixin_45034355的博客

11-27

1199

Spark sortByKey

qq_43192537的博客

11-29

696

Spark sortByKey

Spark rdd之sortBy

南风知我意

10-15

2312

从sortBy函数的实现可以看出，第一个参数是必须传入的，而后面的两个参数可以不传入.而且sortBy函数函数的实现依赖于skeyBy和sortByKey函数，后面会进行说明

Spark排序之SortBy

haijiege的专栏

07-06

4491

sortBy函数源码：接收三个参数，第一个参数必须，第二个和第三个参数非必要def sortBy[K]( f: (T) => K, ascending: Boolean = true, numPartitions: Int = this.partitions.length) (implicit ord: Ordering[K], ctag: C...

spark sortby和orderby

07-27

Spark中的sort by和order by是用于对数据进行排序的操作。sort by是将数据放到多个reduce里面进行排序，排序后每一个reduce里面的数据是有序的，但是全部数据不一定有序。如果reduce个数为1，此时全部数据有序，等价...