Pandas中实现mysql中开窗函数的API大全

凡梦_leo

于 2024-10-06 20:18:38 发布

阅读量408

点赞数 5

分类专栏：大数据 python 文章标签： pandas mysql 数据库

本文链接：https://blog.csdn.net/qq_55006020/article/details/142731223

版权

大数据同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

python

13 篇文章 0 订阅

订阅专栏

Pandas中实现mysql中开窗函数的API大全，建议收藏~~~

在sql中用开窗有多香，在pandas中就一样有多棒

一，排序开窗(ROW_NUMBER,RANK,DENSE_RANK)

二，抽样开窗（分桶开窗）

三，聚合开窗（SUM()、AVG()、MAX()、MIN()，COUNT()）

四，指定窗口范围 rolling

五，前后开窗 (LAG，LEAD)

一，排序开窗(ROW_NUMBER,RANK,DENSE_RANK)

rank方法中的第一个阐述 method参数取值及含义

average（默认值）平均排名

含义：当存在相同值时，将相同值的排名设为这些值的平均排名。

例如：如果有一组数据[1, 2, 2, 3]，对于值2，会有两个相同的值。它们的排名会被计算为平均排名，即(2 + 3)/2= 2.5，所以这组数据的排名结果为[1, 2.5, 2.5, 4]。

min 相当于 rank（）

含义：当存在相同值时，将相同值的排名设为这些相同值可能的最小排名。

例如：对于数据[1, 2, 2, 3]，值2的排名为2（而不是平均排名2.5），所以这组数据的排名结果为[1, 2, 2, 4]。

max 也是相当于rank（）

含义：当存在相同值时，将相同值的排名设为这些相同值可能的最大排名。

例如：对于数据[1, 2, 2, 3]，值2的排名为3，这组数据的排名结果为[1, 3, 3, 4]。

first 相当于 row_number()

含义：按照值在数据中的出现顺序排名。如果有相同值，先出现的值排名靠前。

例如：对于数据[2, 1, 1, 3]，第一个1的排名为2，第二个1的排名为3，这组数据的排名结果为[1, 2, 3, 4]。

dense 做个就是 dense_rank()

含义：类似于min，但排名是连续的，不会出现像average那样的小数排名。相同值共享同一个排名，下一个不同的值的排名是上一个排名加 1。

例如：对于数据[1, 2, 2, 3]，值2的排名为2，这组数据的排名结果为[1, 2, 2, 3]。

第二个参数 ascending是指定排序是升序还是降序

比如做个就是：

row_number（）ovar（partition by user_id order by rn desc）

df3.groupby('user_id')['rn'].rank(method='first',ascending=False)

二，抽样开窗（分桶开窗）

ntile方法
- 功能：将数据按照指定的数量（n）分桶，返回每个数据所属的桶编号（类似于将数据分成n个等级）。
- 示例：

       data = {'col1': [1, 2, 3, 4, 5]}
       df = pd.DataFrame(data)
       df['ntile_3'] = df['col1'].ntile(3)
       print(df)

三，聚合开窗（`SUM()`、`AVG()`、`MAX()`、`MIN()，COUNT()）`

聚合开窗（类似 MySQL 中的聚合函数在开窗函数中的应用，如SUM()、AVG()、MAX()、MIN()等）

groupby结合transform
- 功能：在分组的基础上对每个组内的数据进行聚合操作，并将结果返回到原始数据的每一行。
- 示例：

       data = {'group': ['A', 'A', 'B', 'B'], 'value': [1, 3, 2, 4]}
       df = pd.DataFrame(data)
       df['sum_per_group'] = df.groupby('group')['value'].transform('sum')
       print(df)

四，指定窗口范围 rolling

rolling方法（窗口滑动计算，可用于聚合计算）

功能：定义一个滚动窗口，在这个窗口内进行聚合操作，窗口可以按照指定的数量（固定窗口大小）或者时间（如果数据是时间序列数据）滑动。
示例：

       data = {'col1': [1, 2, 3, 4, 5]}
       df = pd.DataFrame(data)
       df['rolling_sum_3'] = df['col1'].rolling(3).sum()
       print(df)

五，前后开窗 (LAG，LEAD)

前后开窗（类似 MySQL 中的LAG()和LEAD()函数获取前后行的值）

shift方法（类似于LAG()函数获取前一行的值）

功能：将数据按照指定的数量向上或向下移动，可以用于获取前一行或后一行的值（通过设置正负数）。
示例：

       data = {'col1': [1, 2, 3, 4, 5]}
       df = pd.DataFrame(data)
       df['prev_value'] = df['col1'].shift(1)
       print(df)

自定义函数结合shift获取前后行的值（类似LEAD()）

功能：通过自定义函数和shift方法组合，可以实现获取后一行的值。
示例：

       data = {'col1': [1, 2, 3, 4, 5]}
       df = pd.DataFrame(data)
       def lead_function(col, n):
           return col.shift(-n)
       df['next_value'] = lead_function(df['col1'], 1)
       print(df)