pyspark取DataFrame某个字段重复数据中，时间最早或最晚的

sijin_190527

已于 2022-02-07 14:28:58 修改

阅读量818

点赞数

文章标签： python spark

于 2021-11-26 11:00:17 首次发布

本文链接：https://blog.csdn.net/sijin_190527/article/details/121555228

版权

from pyspark.sql.window import Window
import pyspark.sql.functions as F

#df为目标dataFrame
#Id为存在重复数据的字段
#Time为时间



#以下为取最早的一条数据
window = Window.partitionBy('Id').orderBy(df.Time.asc())
topn_df = df.withColumn('topn',F.row_number().over(window))
new_df = topn_df.filter('topn=1')



#以下为取最晚的一条数据
window = Window.partitionBy('Id').orderBy(df.Time.desc())
topn_df = df.withColumn('topn',F.row_number().over(window))
new_df = topn_df.filter('topn=1')

sijin_190527

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
pyspark取DataFrame某个字段重复数据中，时间最早或最晚的

from pyspark.sql.window import Window#df为目标dataFrame#Id为存在重复数据的字段#Time为时间#以下为取最早的一条数据window = Window.partitionBy('Id').orderBy(df.Time.asc())topn_df = df.withColumn('topn',F.row_number().over(window))new_df = topn_df.filter('topn=1')#以下为取最晚.
复制链接

扫一扫