一些PYSPARK常用的方法

最新推荐文章于 2023-04-23 21:00:23 发布

weixin_42252147

最新推荐文章于 2023-04-23 21:00:23 发布

阅读量347

点赞数

分类专栏： SPARK 文章标签： apache spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42252147/article/details/105359401

版权

SPARK 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.去重且保留最大/小值：

from pyspark.sql import functions as F

df.groupby(['columns1','columns2']).agg(F.max/min(column_name))

2.将df按照某一列排序，取前n列

from pyspark.sql.window import Window

df.withColumn('rownumber',F.row_number().over(Window.orderBy(-df['col'])))

3.聚合函数agg,排序后，根据uid聚合，将wid这一列collect成list

df1.sort(df1['p'].desc()).groupby('uid').agg(F.collect_list('wid').alias('value_list'))

weixin_42252147

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一些PYSPARK常用的方法

1.去重且保留最大/小值：from pyspark.sql import functions as Fdf.groupby(['columns1','columns2']).agg(F.max/min(column_name))2.将df按照某一列排序，取前n列from pyspark.sql.window import Windowdf.withColumn('rownumb...
复制链接

扫一扫

专栏目录

weixin_42252147

博客等级

码龄6年

7
原创

6
点赞

49
收藏

3
粉丝

关注

私信

热门文章

分类专栏

最新评论

如何通俗地理解支持向量机？
CSDN-Ada助手: 非常感谢CSDN博主分享了如何通俗地理解支持向量机的经验，这篇博客对于初学者来说非常有帮助。我觉得下一篇博客可以写关于支持向量机在实际应用中的案例分析，例如在图像识别或者自然语言处理中的应用实践。这样的技术文章对其他用户的学习和实践都会有很大的帮助，相信会有更多读者期待你的下一篇博客哦！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。