Pandas中的 transform() 结合 groupby() 用法示例

首先,假设我们有如下餐厅数据集:

import pandas as pd

df = pd.DataFrame({
  'restaurant_id': [101,102,103,104,105,106,107],
  'address': ['A','B','C','D', 'E', 'F', 'G'],
  'city': ['London','London','London','Oxford','Oxford', 'Durham', 'Durham'],
  'sales': [10,500,48,12,21,22,14]
})

在这里插入图片描述
如果我们想知道:每个餐厅在城市中所占的销售额百分比是多少?预期得到的输出是:
在这里插入图片描述
相比于原来的数据集,多了两列,分别是某个城市所有餐厅的销售总额,以及每个餐厅在城市中所占的销售额百分比。解决方案有两个:

方案一(较麻烦):

1、使用 groupby('city') 基于城市进行分组,对于这些组中的每一个组,选中其销售额列 ['sales'],然后使用函数 apply(sum) 或者sum() 对城市的销售额进行求和。

之后,新列被重命名为 city_total_sales 并且索引被重置(注意不能漏了 reset_index() ,因为 groupby('city') 生成的索引是城市,而我们希望城市作为普通列)。

city_sales = df.groupby('city'['sales'].sum().rename('city_total_sales').reset_index()

得到的 city_sales 如下:
在这里插入图片描述
2、用 merge() 函数把 city_sales 合并回去,得到的 df_new 如下:

df_new = pd.merge(df, city_sales, how='left')

在这里插入图片描述
3、最后,求百分比并保留两位小数,结果如下:

df_new['pct'] = df_new['sales'] / df_new['city_total_sales']
df_new['pct'] = df_new['pct'].apply(lambda x: format(x, '.2%'))

在这里插入图片描述
方案二(便捷):

1
transform() 函数在执行转换后保留与原始数据集相同数量的项目。因此,使用 groupby() 然后使用 transform(sum) 会返回相同的输出,结果如下图:

df['city_total_sales'] = df.groupby('city')['sales'].transform('sum')

代码翻译过来就是:数据集基于城市进行分组,然后选定销售额列,对每组的销售额进行求和,返回一个和原列长度一样的新列
在这里插入图片描述

2

与方案一相同。

df['pct'] = df['sales'] / df['city_total_sales']
df['pct'] = df['pct'].apply(lambda x: format(x, '.2%'))

总结:可以看出,在对 DataFrame 进行分组 groupby() 之后,如果是使用 apply() 或者直接使用某个统计函数,得到的新列的长度与分组得到的组数是一样的;而如果使用 transform()得到的新列与 DataFrame 中列的长度是一样的

  • 5
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Pandas groupby 是一个非常强大的数据聚合工具,可以根据数据的某些属性对数据进行分组,并按照分组后的标准进行聚合操作。常见的聚合操作包括计算平均值、求和、统计个数等等。下面是一个简单的示例代码,用于演示 Pandas groupby 的基本用法: ``` import pandas as pd df = pd.read_csv('data.csv') grouped = df.groupby(['category']) result = grouped.agg({'price': ['mean', 'sum'], 'quantity': 'sum'}) print(result) ``` 这段代码,我们首先使用 Pandas 读取了一个 CSV 文件,并将其存储在 DataFrame 。然后,我们对数据按照 'category' 属性进行分组,并计算了每个分组的平均价格、总价格和总数量。最后,我们将结果打印出来。 需要注意的是,Pandas groupby 还有很多高级用法,例如可以自定义聚合函数、使用多个属性进行分组、使用时间序列数据进行分组等等。如果你对 Pandas groupby 感兴趣,可以查看 Pandas 官方文档Group By: split-apply-combine。 ### 回答2: pandasgroupby是一个强大的数据处理工具,可以对数据进行分组并进行各种操作。在使用groupby之前,需要先通过pandas库导入数据,并对数据进行处理。 首先,使用pandas的read_csv函数读取csv文件,并保存为一个DataFrame对象。然后,根据需要选择需要分组的列,并调用groupby函数。 groupby函数可以接收一个或多个分组的列名作为参数,将数据按照这些列进行分组。分组后,可以对每个组进行各种操作,比如计数、求和、平均值等等。 接下来,可以使用agg函数对分组后的数据进行聚合操作。agg函数可以接收一个或多个聚合函数作为参数,比如count、sum、mean等等。聚合函数将对每个组内的数据进行计算,并将结果返回为一个新的DataFrame对象。 除了agg函数,还可以使用transform函数对分组后的数据进行转换操作。transform函数可以接收一个或多个转换函数作为参数,并将转换后的结果与原数据对应,返回一个新的DataFrame对象。 最后,通过reset_index函数可以将分组后的结果重新索引,得到一个新的DataFrame对象。 总的来说,pandasgroupby是一个非常强大的工具,能够方便地对数据进行分组和聚合操作,提高数据处理和分析的效率。 ### 回答3: Pandasgroupby是一种基于某一或多个列对数据进行分组的操作。通过groupby可以将数据集分成若干个组,并对每个组应用相同的操作。 首先,我们需要使用groupby函数指定要分组的列。可以使用单个列名或多个列名作为groupby函数的参数。然后,我们可以对分组后的数据应用各种聚合函数,例如求和、平均值、计数等。 groupby返回的是一个GroupBy对象,这个对象包含了分组后的数据,以及一些可以进行聚合操作的方法和属性。 使用groupby时,常用的聚合操作之一是使用agg函数对分组后的数据进行多个不同的聚合操作。通过传递一个字典给agg函数,可以对每个聚合操作指定一个列名。 另外,groupby还具有分组过滤和转换的功能。分组过滤可以通过使用filter函数对分组后的数据进行筛选。分组转换可以通过使用transform函数对分组后的数据进行改变,但是保持数据形状的不变。 总而言之,Pandasgroupby是一种很方便的数据处理工具,它可以快速对数据进行分组,并进行各种聚合、过滤和转换操作。它在数据分析和处理经常被使用到,能够提高数据分析的效率和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值