RDD,Spark SQL,DF排序

最新推荐文章于 2024-06-02 13:30:46 发布

NoOne-csdn

最新推荐文章于 2024-06-02 13:30:46 发布

阅读量873

点赞数

分类专栏： pyspark

本文链接：https://blog.csdn.net/weixin_40161254/article/details/87920501

版权

pyspark 专栏收录该内容

63 篇文章 9 订阅

订阅专栏

一、单一字段排序

1、用RDD
RDD使用takeOrdered(num,key=None)方法排序资料

升序排列
a = userrdd.takeOrdered(5, key=lambda x: int(x[1]))
print(a)

降序
a = userrdd.takeOrdered(5, key=lambda x: -int(x[1]))
print(a)

2、Spark SQL
使用关键字order by

降序
sqlContxt.sql('''
select userid,age,gender,occupation,salary from user_table order by age desc
''').show(5)


升序排列
sqlContxt.sql('''
select userid,age,gender,occupation,salary from user_table order by age 
''').show(5)

3、df排列


df.select('userid','occupation','gender','age').orderBy('age').show(5)
df.select('userid','occupation','gender','age').orderBy('age'，ascending=0).show(5)

二、多字段排序
1、rdd 排列

# RDD 排序 lambda x:(-int(x[1]),x[2]))年龄降幂排列，性别生序排列
a = userrdd.takeOrdered(5, key=lambda x: (-int(x[1]), x[2]))
print(a)

2 、Spark SQL

sqlContxt.sql('''
select userid,age,gender,occupation,salary from user_table order by age desc,gender
''').show()

3、DF排列

df.orderBy(['age', 'gender'], ascending=[0, 1]).show(5)

df.orderBy(df.age.desc(), df.gender).show(5)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

NoOne-csdn

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark SQL之RDD, DataFrame, DataSet详细使用

congge_study的博客

05-02

2万+

Spark SQL之RDD, DataFrame, DataSet详细使用

spark SQL、Dataframe、Dataframe 和 RDD 的区别、spark SQL WordCount

赤兔胭脂小吕布的博客

03-11

396

目录首先让我们来回顾一下 spark 的生态系统spark SQLDataframeDataframe 和 RDD 的区别spark SQL WordCount首先让我们来回顾一下 spark 的生态系统 spark SQL Dataframe 与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还掌握数据的结构信息，即sch...

参与评论您还未登录，请先登录后发表或查看评论

Spark RDD案例（六）自定义排序

xiaohu21的博客

09-29

779

Spark RDD案例（六）自定义排序 1. 背景在大数据日常开发中，数据提取，转换，存储等工作是日常主要内容 spark作为大数据处理分析引擎，底层主要是RDD抽象数据集，更上层的spark sql、dataset、dataframe、dstream等都是基于RDD来抽象的。本文主要讲述关于数据提取中最常见的数据排序处理，使用RDD来实现。最主要的是自定义排序，这也是日常开发中最常见的排序需求，一般都需要自定义排序规则 2.案例代码需求将数据按照年龄降序，工资升序数据代码中手

Spark SQL&DF

Claroja

10-28

157

package spark import org.apache.spark.rdd.RDD import org.apache.spark.sql.types._ import org.apache.spark.sql.{DataFrame, Row, SQLContext} import org.apache.spark.{SparkConf, SparkContext} object Spa...

Spark rdd之sortBy

南风知我意

10-15

2342

从sortBy函数的实现可以看出，第一个参数是必须传入的，而后面的两个参数可以不传入.而且sortBy函数函数的实现依赖于skeyBy和sortByKey函数，后面会进行说明

spark的词频统计之后作升序或者降序排序

qq_34341930的博客

05-05

1654

scala> b.map((_,1)).reduceByKey(_+_).collect res26: Array[(String, Int)] = Array((hive,1), (spark,3), (jeff,2), (ruoze,1), (hadoop,1), (hi,1)) 现有这样的一个已经做好wordcount的RDD，对其进行排序升序： scala>...

Spark RDD:分组排行榜

LZB_XM的博客

06-17

833

@ 同一个同学有多门成绩，现在需要计算每个学生的分数最高的前三个成绩，期望输出结果如下所示：实现思路：使用Spark RDD的算子可以对(key, value)形式的RDD按照key进行分组，key相同的元素的value将聚合到一起，形成(key, value-list)，将value-list中的元素降序排列取前N个即可。二、完成任务预备工作：启动集群的HDFS与Spark 将成绩文件 - 上传到HDFS上目录（一）、新建Maven项目设置项目信息（项目名、保存位置、组编号

Spark SQL执行计划到RDD全流程记录

lilyjoke的专栏

12-17

2197

记录Spark SQL生成执行计划的全流程和代码跟踪。Spark版本是2.3.2。上图流程描述了Spark SQL 怎么转成Spark计算框架可以执行的分布式模型，下面结合一个样例，跟踪每个步骤。

【spark】pyspark中数据类型转换pandas_df，rdd，spark_df

fxflyflyfly的博客

11-05

5539

pandas_df创建添加链接描述 RDD创建添加链接描述 spark_df创建一、创建DF或者读入DF 以sql输出的结果创建df，这种形式最常用。 from pyspark.sql import SparkSession from pyspark.sql import Row from pyspark.sql.types import * from pyspark.sql.functio...

Spark SQL的基本架构与DataFrame概述

晓晓的天空

03-14

881

Spark SQL的基本架构与DataFrame概述

spark （RDD 的持久化、排序、二次排序）

TylerPY的博客

11-03

1624

RDD 的持久化 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; /** * RDD 的持久化 */ public class Persion_9 { public stati...

RDD与Java实战：学生列表，先按性别降序，再按年龄降序排列

最新发布

howard2005的专栏

06-02

371

两种实现方式各有优势：Scala + RDD的方式适合于大规模数据集的分布式处理，而Java的方式则适合于单机环境下的数据排序任务。通过本实战任务，我们可以更好地理解不同编程语言和工具在数据处理任务中的应用和优势。

排序

qq_39713718的博客

07-31

1726

import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.rdd.RDD import org.apache.spark.sql.Row class SortRow(mode: Array[Boolean] ...

RDD自定义排序

互坑

01-04

4712

在spark中很多时候回去对RDD进行排序，但是官方给的排序规则无法满足我们的需求，许多时候需要我们重新定义排序规则，接下来我们来谈论一下RDD的排序规则。首先我们通过代码来看一下sparkAPI中自带排序算子sortBy和sortByKey val conf = new SparkConf().setAppName("sortByKey").setMaster("local[2]")

Spark学习笔记11:RDD算子

balabalalibala的博客

05-20

1017

RDD 算子

spark实现排序的三种方式

cnheasy

12-12

1897

根据购买人数降序,购买人数相同根据价格降序排序 object SparkDemo01 { def main(args: Array[String]): Unit = { //简单的 demo // productDemo1() //通过 class 实现 // productDemo2() //通过 case class实现 p...

Spark自定义排序

鸭梨的博客

11-23

694

1 当rdd是键值对的时候可以使用sortByKey进行排序,按照key进行排序,可以指定升序和降序 2 sortBy自定义字段进行排序 3 还可以在自定义类型时,继承Ordered,重写方法进行排序.(和java中的Comparator类似) 4 还可以使用隐式类型转换进行排序 object _SortDemo { def main(args: Array[String]): Unit = { val conf: SparkConf = new SparkConf().setAppName.

Spark Sql orderby排序使用测试

weixin_41939278的博客

11-03

8872

版本信息：Spark 2.2-hadoop-2.6 1、使用Spark Shell方式测试1g数据（1）测试sql：SELECT * FROM rddTable order by age 先打开spark集群， /…/…/sbin/start-all.sh 然后启动spark shell： ./spark-shell --master spark://10.47.85.158:7077 --...

大数据Spark中的RDD操作

qq_45453185的博客

11-28

471

大数据Spark中的RDD操作一、上传1.txt文本到本地，并分为2个区：二、上传文件到hadoop伪分布式系统 1、启动hadoop 2、查看hadoop根目录文件： 3、上传文本到hadoop伪分布式系统 4、查看文本 5、在spark操作文本： 6、把List 数组乘以2，makeRDD方法和map方法 7、textFile方法和flatMap方法 8、filter方法 ...

spark sql 升序排序

07-29

在Spark SQL中，可以使用orderBy函数对DataFrame进行升序排序。具体的使用方法如下： 1. 首先，导入相关的包并定义样例类，例如： ``` import org.apache.spark.sql.functions._ case class Student(班级: Int, ...