一些PYSPARK常用的方法

1.去重且保留最大/小值:

from pyspark.sql import functions as F

df.groupby(['columns1','columns2']).agg(F.max/min(column_name))

2.将df按照某一列排序,取前n列

from pyspark.sql.window import Window

df.withColumn('rownumber',F.row_number().over(Window.orderBy(-df['col'])))

3.聚合函数agg,排序后,根据uid聚合,将wid这一列collect成list

 df1.sort(df1['p'].desc()).groupby('uid').agg(F.collect_list('wid').alias('value_list'))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值