pyspark分组排序并提取各组的前N行

最新推荐文章于 2022-10-11 20:07:27 发布

挖掘源

最新推荐文章于 2022-10-11 20:07:27 发布

阅读量3.2k

点赞数 1

分类专栏：技术文章标签： spark 数据挖掘 big data

本文链接：https://blog.csdn.net/qq_42187958/article/details/123020430

版权

技术专栏收录该内容

12 篇文章 0 订阅

订阅专栏

在利用spark进行数据挖掘与整合时，如果遇到分组排序并提取前N行，有以下解决思路
常规Python
df.groupby([col1,col2]).apply(f(x))
pyspark思路：
第一：将pyspark的dataframe数据注册成为一个临时表；例如：df.registerTempTable(‘df1’)
然后利用spark sql种的窗函数加条件筛选来完成
df2=spark.sql("""
select * from (select *,row_number() over (PARTITION BY col1,col2,col3 ORDER BY col4 desc) rank from df1) tmp where rank<=10
“”")
这个是提取前10的数据