Pandas中如何对每个分组应用apply函数_18

最新推荐文章于 2022-09-01 15:55:12 发布

天问_z

最新推荐文章于 2022-09-01 15:55:12 发布

阅读量671

点赞数

分类专栏： Pandas python 文章标签： python

本文链接：https://blog.csdn.net/qq_42360017/article/details/124262794

版权

python 同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

Pandas

20 篇文章 1 订阅

订阅专栏

在这里插入图片描述

import pandas as pd
import numpy as np

"""
本节主要介绍pandas怎样对每个分组应用apply函数

groupby.apply(function)
1.function的第一个参数是dataframe
2.function的返回结果，可以是dataframe、series、单个值,甚至可以是和dataframe输入完全没关系

本节展示：
1.怎样对数值列按分组的归一化
2.怎样取每个分组的topn数据
"""

# 一.怎样对数值列按分组的归一化
ratings = pd.read_csv(
    './rating.csv',
    sep='::',
    engine='python',
    names='UserID::MovieID::Rating::Timestamp'.split('::')
)

# 实现按照用户ID分组，然后对其中一列进行归一化的函数
def rating_norm(df):
    """
    :param df: 每个用户分组的dataframe
    :return:添加新列后的dataframe
    """
    min_value = df['rating'].min()
    max_value = df['rating'].max()
    df['rating_norm'] = df['rating'].apply(lambda x : (x-min_value)/(max_value-min_value))
    return df

# 对UserID进行分组，然后进行归一化
ratings = ratings.groupby('UserID').apply(rating_norm)
print(ratings[ratings['UserID']==1].head())

# 二、实现取每个分组的topn数据
"""
获取2018年每个月温度最高的2天数据
"""
fpath = './test.csv'
df = pd.read_csv(fpath)
# 去掉温度的C符号，并转为整数
df.loc[:,'bwendu'] = df['bwendu'].str.replace('C','').astype('int32')
df['ywendu'] = df['ywendu'].map(lambda x : int(str(x).replace('C','')))
# 新增一列为月份
df['month'] = df['ymd'].str[:7]

# 定义函数
def getWenduTopN(df,topn):
    """
    :param df:这里的df是每个month分组后的df
    :param topn:
    :return:
    """
    # 首先对按照月份分组后的df进行对温度的升序，然后取ymd,bwendu两列，然后因为升序所以从后往前取topn行
    return df.sort_value(by='bwendu')[['ymd','bwendu']][-topn:]

df.groupby('month').apply(getWenduTopN,topn=2).head()

# 所以groupby的apply函数返回的dataframe,其实和原来的dataframe可以完全不一样

天问_z

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pandas中如何对每个分组应用apply函数_18

import pandas as pdimport numpy as np"""本节主要介绍pandas怎样对每个分组应用apply函数groupby.apply(function)1.function的第一个参数是dataframe2.function的返回结果，可以是dataframe、series、单个值,甚至可以是和dataframe输入完全没关系本节展示：1.怎样对数值列按分组的归一化2.怎样取每个分组的topn数据"""# 一.怎样对数值列按分组的归一化rati.
复制链接

扫一扫