pyspark,pandas,sql之分组排序

最新推荐文章于 2024-05-12 21:57:36 发布

泥鳅812

最新推荐文章于 2024-05-12 21:57:36 发布

阅读量3.4k

点赞数 3

分类专栏： python DB

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_20174131/article/details/85099110

版权

python 同时被 2 个专栏收录

77 篇文章 0 订阅

订阅专栏

28 篇文章 0 订阅

订阅专栏

# coding=utf-8

import pandas as pd
from pyspark.sql import SparkSession, Window
from pyspark.sql import functions as fn


pdf = pd.DataFrame({
    'project': ['A', 'A', 'A', 'B', 'B', 'B'],
    'grade': ['D', 'D', 'C', 'C', 'E', 'E'],
    'score': ['K','J', 'I','H', 'G', 'F'],
})
print(pdf)

## pyspark:
spark = SparkSession.builder.master('local').appName('rank_app').getOrCreate()
df = spark.createDataFrame(pdf)
df = df.withColumn('row_num', fn.row_number().over(Window.partitionBy('project')\
                                                   .orderBy(fn.desc('grade'), fn.asc('score'))))
df.orderBy(fn.asc('project'), fn.desc('score')).show()
spark.stop()


## sql:
'''
SELECT project, grade, score
    , ROW_NUMBER() OVER (PARTITION BY project ORDER BY grade DESC, score ASC) AS row_num
FROM table
ORDER BY project, score DESC
'''

## pandas 1:
# for col in list(pdf.columns):
#     hash_table = {v:i+1 for i,v in enumerate(sorted(pdf[col].unique()))}
#     pdf[f'nk_{col}'] = pdf[col].apply(lambda x: hash_table.get(x))
#
# # desc:
# pdf['neg_nk_grade'] = pdf['nk_grade'] * (-1)
# # rank:
# pdf['row_num'] = pdf[['project','neg_nk_grade','nk_score']].groupby(['project']).rank(ascending=True,method='first',na_option='bottom')
# pdf = pdf[['project','grade','score','rank_num']]
# print(pdf)

## error ~~~
## 只适合分组之后的一列排序，不能进行多列排序，更不能多列正逆序
## 非数字列不能进行排序
## 非数字列在numeric_only=False下，不能使用method='first',shit!

## pandas 2:
pdf['row_num'] = pdf.sort_values(['grade','score'], ascending=[False,True]).groupby(['project']).cumcount()+1
print(pdf)

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pyspark,pandas,sql之分组排序

import pyspark.sql.functions as fnfrom pyspark.sql import Windowdf.withColumn("row_number", fn.row_number().over(Window.partitionBy("id").orderBy(df["pt"].desc()))).show()
复制链接

扫一扫

专栏目录

泥鳅812 CSDN认证博客专家 CSDN认证企业博客

码龄10年

130: 原创

6万+: 周排名

1万+: 总排名

28万+: 访问

: 等级

3178: 积分

38: 粉丝

74: 获赞

57: 评论

273: 收藏

私信

关注

热门文章

分类专栏

windows 5篇
cuda 4篇
gpu 4篇
data 1篇
github 1篇
2FA 1篇
centos 1篇
yum 1篇
anaconda 2篇
sqlalchemy 1篇
pandas 1篇
python 77篇
R 12篇
Linux 36篇
ahalei 8篇
ML 7篇
spider 10篇
markdown 3篇
tip 48篇
authority 4篇
algorithm 17篇
DB 28篇
html

最新评论

linux的shell命令做数据统计分析
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
linux的shell命令做数据统计分析
CSDN-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
Github的2FA验证(Two-factor authentication)(不要慌，非常简单)
泥鳅812: 跟手机号有啥关系。你的auth是通过第一次扫码（github账号信息）+手机设备id两者加密得到的。设备跟换，或者你把验证app卸载都会导致加密组合信息丢失啊，所以你只能通过最后一步来恢复。你中途可以增加另一个保命方式，security keys，这个不需要手机，相当于windows锁频的pin码，这个就方便多了
Github的2FA验证(Two-factor authentication)(不要慌，非常简单)
泥鳅812: 很多公司的服务器登录（跳板机）、公司重要数据页面登陆都在用啦，这已经成为企业安全标配啦
Github的2FA验证(Two-factor authentication)(不要慌，非常简单)
jAmEs_: 认真阅读2FA的文档，还是感觉不能用邮件来重置密码，这个我感觉挺奇怪的，不太合理，如果邮件、手机号都不能作为兜底的手段，这个有点不能接受啊，本来密码输入就是一个容易泄露的过程，所以2FA来保障，但是兜底的换成保存这些code也保管麻烦，也不见得不容易泄露，理解不了啊

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。