pyspark 获取分组的topk 数据

小鸡仔_orz

已于 2022-05-17 20:06:56 修改

阅读量402

点赞数

分类专栏：基础指令文章标签： spark 大数据 big data

于 2021-10-27 17:07:56 首次发布

本文链接：https://blog.csdn.net/weixin_40650252/article/details/120997194

版权

基础指令专栏收录该内容

2 篇文章 0 订阅

订阅专栏

from pyspark.sql.functions import collect_list
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType
from pyspark.sql.window import Window
import pyspark.sql.functions as F

window = Window.partitionBy("uid").orderBy(df["times"].desc())
df = df.withColumn('topn', F.row_number().over(window))
df = df.where(df['topn'] <= 200)

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession, Window
from pyspark.sql.types import IntegerType, StringType
from pyspark.sql.functions import udf, col
import pyspark.sql.functions as f

new_data = new_data.select('u_id', 'query', 'cate_query_freq', 'cate', 'prefer_probility', 'older', 'i_counts',
                               f.row_number().over(Window.partitionBy('u_id', 'cate') \
                               .orderBy(new_data['cate_query_freq'].desc())).alias('index'))
print(new_data.show())

new_data = new_data.where(new_data['index'] <= TOP_K / 10 * new_data['older'])

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小鸡仔_orz

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pyspark 获取分组的topk 数据

from pyspark import SparkContext, SparkConffrom pyspark.sql import SparkSession, Windowfrom pyspark.sql.types import IntegerType, StringTypefrom pyspark.sql.functions import udf, colimport pyspark.sql.functions as fnew_data = new_data.select('u_id',.
复制链接

扫一扫