Part 18:Pandas如何对每个分组应用apply函数

最新推荐文章于 2023-05-14 23:28:35 发布

夏天的学习日记

最新推荐文章于 2023-05-14 23:28:35 发布

阅读量684

点赞数 1

分类专栏： Pandas 文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/qq_46044325/article/details/126923578

版权

Pandas 专栏收录该内容

20 篇文章 9 订阅

订阅专栏

Pandas怎样对每个分组应用apply函数?

知识:Pandas的GroupBy遵从split、apply.combine模式

这里的split指的是pandas的groupby，我们自己实现apply函数，apply返回的结果由pandas进行combine得到结果

GroupBy.apply(function)

. function的第一个参数是dataframe

. function的返回结果，可是dataframe、series、单个值，甚至和输入dataframe完全没关系

本次内容：

1.怎样对数值列按分组的归—化?

2.怎样取每个分组的TOPN数据?

实例1:怎样对数值列按分组的归一化?

将不同范围的数值列进行归一化，映射到[0,1]区间:

·更容易做数据横向对比，比如价格字段是几百到几千，增幅字段是0到100

·机器学习模型学的更快性能更好

归一化的公式:

演示:用户对电影评分的归一化

每个用户的评分不同，有的乐观派评分高，有的悲观派评分低，按用户做归—化

import pandas as pd
ratings=pd.read_csv(
    './datas/movielens-1m/ratings.dat',
    sep='::',
    engine='python',
    names='UserID::MovieID::Rating::Timestamp'.split('::')
    
)
ratings.head()

#实现按照用户ID分组，然后对其中一列进行归一化
def ratings_room(df):
    '''
    每个用户分组的dataframe
    '''
    min_value=df['Rating'].min()
    max_value=df['Rating'].max()
    df['Rating_rooms']=df['Rating'].apply(
        lambda x:(x-min_value)/(max_value-min_value)
    )
    return df

ratings=ratings.groupby('UserID').apply(ratings_room)
ratings.head()

ratings[ratings['UserID']==1].head()

看到UserID==1这个用户，Rating==3是他的最低分，是个乐观派，我们归一化到0分

实例2:怎样取每个分组的TOPN数据?

获取2018年每个月温度最高的2天数据

df=pd.read_csv(
    './datas/beijing_tianqi/beijing_tianqi_2018.csv'
)
df.loc[:,'bWendu']=df['bWendu'].str.replace('℃','').astype('int32')
df.loc[:,'yWendu']=df['yWendu'].str.replace('℃','').astype('int32')
#创建一个新的列为月份列
df['month']=df['ymd'].str[:7]
df

def getWenduTopn(df,topn):
    '''
    这里的df，是每个月份分组的group的df
    '''
    df2=df.sort_values(by='bWendu')[['ymd','bWendu']][-topn:]
    return df2
df.groupby('month').apply(getWenduTopn,topn=2).head()

夏天的学习日记

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Part 18:Pandas如何对每个分组应用apply函数

这里的split指的是pandas的groupby，我们自己实现apply函数，apply返回的结果由pandas进行combine得到结果。. function的返回结果，可是dataframe、series、单个值，甚至和输入dataframe完全没关系。看到UserID==1这个用户，Rating==3是他的最低分，是个乐观派，我们归一化到0分。·更容易做数据横向对比，比如价格字段是几百到几千，增幅字段是0到100。实例1:怎样对数值列按分组的归一化?1.怎样对数值列按分组的归—化?
复制链接

扫一扫