pyspark orderBy 后dropDuplicates 保留第一个数据

最新推荐文章于 2024-07-31 16:48:34 发布

lieyingkub99

最新推荐文章于 2024-07-31 16:48:34 发布

阅读量1.2k

点赞数 1

分类专栏： python linux命令文章标签：大数据数据分析

本文链接：https://blog.csdn.net/lieyingkub99/article/details/107250562

版权

python 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

linux命令

5 篇文章 0 订阅

订阅专栏

一、pandas 可以取第一个

df = df.sort_values(by=['uid', 'aid']).drop_duplicates(subset=['aid'], keep='first')

二、pyspark 无法通过这种方式取第一个

orderBy( [ 'uid', 'aid'], ascending=[ 0,  0, 0]).drop_duplicates( [ 'uid'])

解决方案：


window = Window.partitionBy(['uid']).orderBy(['uid'])
df.withColumn('rank', F.rank().over(window)).filter("rank= '1'").drop('rank')

注意
F.rank()：计算排序时，如果存在相同位次的记录，则会跳过之后的位次。
F.dense_rank函数：同样是计算排序，即使存在相同位次的记录，也不会跳过之后的位次。
F.row_number函数：赋予唯一的连续位次。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lieyingkub99

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【Pyspark-驯化】一文搞懂Pyspark中dropDuplicates和sort的使用技巧

志在创建优质博客、通俗易懂、助力大家提高学习效率！

08-09

909

在处理大规模数据集时，经常需要对数据进行清洗和排序。PySpark提供了dropDuplicates和sort方法，分别用于删除重复的行和对数据进行排序。这些操作对于提高数据质量、优化查询性能和准备数据进行分析至关重要。dropDuplicates和sort是PySpark中两个非常有用的函数，它们允许用户在DataFrame中删除重复的行和对数据进行排序。通过本博客的代码示例，我们学习了如何使用这两个函数进行数据清洗和排序操作。

python用drop_duplicates()函数保留数据集的重复行

SissiZhang的博客

03-13

4739

前两天处理数据的时候，需要得到两个数据的交集数据，所以要去除数据中非重复部分，只保留数据中的重复部分。网上看了一下大家的教程，大部分都是教去除重复行，很少有说到仅保留重复行的。所以在这里用drop_duplicates这个去重函数来实现这个功能。 drop_duplicates函数介绍： data.drop_duplicates(subset=[‘A’,‘B’],keep=‘first’,inp...

1 条评论您还未登录，请先登录后发表或查看评论

3. PySpark的基本操作

chendengyi2的博客

07-29

975

在分组查询（GROUP BY）。groupBy()方法可以根据指定的字段进行分组，在groupBy()方法之后，通常使用统计方法进行计算，如：count()（总和，仅用于数值型字段），mean()、max()、min()、sum()等。从结果可以看出，苹果和荔枝的季度排名差分别为7和6，名列排名差的第一和第二位，它们是季节性最强的水果。**right/right_outer：**这种join就是把右边的表的所有行都取出来，如果左边表有匹配的行，就用匹配的行，如果左边表没有匹配的行，就用NULL代替。

pyspark orderBy drop_uplicates 保留第一条数据

xiedelong的博客

03-02

591

# 这样无法保留第一个数据 user_df = user_df.orderBy("dt", ascending=False).drop_duplicates(subset=["username"]) # 需要这样使用，dt 倒排，只保存第一个 rank_window = Window.partitionBy("username").orderBy(F.col("dt").desc()) user_df = user_df.withColumn('rank', F.rank().over(rank_wind

Pyspark:dropDuplicates去重获取每个人最新的一条数据

学习记录总结分享

04-18

2700

#/bin/python3 from pyspark.sql import Row from pyspark.sql import functions as F #按时间time取每个人name的最近的一条数据 def main(sparkSession): df = sc.parallelize([\ Row(name='A',time='20200221',age='18'),\ Row(name='A',time='20200221',age='18'),\

pandas去重保留前一条或后一条 drop_duplicates

百载文枢江左的博客

12-09

8618

pandas去重保留前一条或后一条 drop_duplicatessubset参数keep参数inplace参数例子 pandas库中的drop_duplicates()函数简直就是去重的神器，该函数还可以在去重中人为设置保留靠前的记录还是靠后的记录。 DataFrame.drop_duplicates(self, subset=None, keep='first', inplace=False...

pyspark 入门

qq_36523203的博客

10-11

942

为什么用 python中pandas是数据分析的利器，具有并行的特兹那个，而且函数和数据计算的方法非常方便，是数据分析中的瑞士军刀。但是受限于单个机器性能和配置的限制，当大规模数据，比如100G-10TB规模的数据时，pandas就显得局限了，就像瑞士军刀杀牛，难以下手。这时就需要基于分布式计算的大数据工具spark,是基于分布式计算，可以基于hadoop和hive，进行分布式的数据计算，同时spark具有python API，可以通过类似python的语法，无门槛的过渡。怎么用 pyspark支持RDD

pyspark入门教程

热门推荐

Im ok的博客哦

07-20

3万+

目录一、windows下配置pyspark环境 1.1 jdk下载安装 1.2 Scala下载安装 1.3 spark下载安装 1.4 Hadoop下载安装 1.5 pyspark下载安装 1.6 anaconda下载安装 1.7 测试环境是否搭建成功二、pyspark原理简介三、pyspark使用语法 3.1 RDD的基本操作 3.2 DataFrame的基本操作 3.3 pyspark.sql.functions中的方法简介 3.4 窗口函数的使用 Pyspark学习笔

PySpark | SparkSQL入门 | DataFrame入门

liujiesxs的博客

06-28

1531

SparkSQL中的DataFrame的入门和操作

Spark笔记（pyspark）

算法工程师

02-01

2429

Spark笔记1、基本概念2、架构设计3、Spark运行流程4、弹性分布数据集(RDD)1.groupByKey和reduceByKey的区别2. 哪两个Action算子的结果不经过Driver, 直接输出?3. mapPartitions 和 foreachPartition 的区别?5、Shuffle与依赖6、持久化1. Cache和Checkpoint区别2. Cache 和 CheckPoint的性能对比?7、Spark On Yarn两种模式总结8、Spark内核调度............

pyspark之DataFrame操作大全

zhengzaifeidelushang的博客

04-26

3011

Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。 DataFrame().columns from pyspark.sql import Row df = sc.parallelize([ Row(name='Alice', age=5, height=80), Row(name='...

PYSPARK中的groupby, agg，alias, orderby多个columns的操作

anxingirl的专栏

03-10

9869

#Pyspark imports import pyspark from pyspark.sql import SQLContext from pyspark.sql.functions import hour, when, col, date_format, to_timestamp from pyspark.sql.functions import * # Define Spark Context sc = pyspark.SparkContext(appName="Homework")...

pyspark df 二次排序

WGS.

06-06

574

pyspark df 二次排序

Databricks pyspark dropDuplicates删除重复数据