翻译：apply与transform在搭配groupby的不同

htuhxf

已于 2022-01-24 17:56:44 修改

阅读量1k

点赞数

分类专栏： Python 笔记文章标签： python 机器学习数据挖掘

于 2021-08-18 19:02:35 首次发布

原文链接：https://towardsdatascience.com/difference-between-apply-and-transform-in-pandas-242e5cf32705

版权

Python 笔记专栏收录该内容

23 篇文章

订阅专栏

pandas.DataFrame.apply(func, axis=0)：Apply a func along an axis of the DataFrame.

pandas.DataFrame.transform(func, axis=0)：Call func on self producing a DataFrame with transformed values. Produced DataFrame will have same axis length as self.

# 假设有如下数据
df = pd.DataFrame({'s':['s1', 's1', 's2', 's2', 's2', 's2', 's4', 's4', 's4'],
                 'm':['m1', 'm1', 'm3', 'm3', 'm4', 'm4', 'm2', 'm2', 'm2'],
                 'values':['a', 'n', 'cb', 'mk', 'bg', 'dg', 'rr', 'cb', '1'],
                 'number':[3, 2, 5, 8, 10, 1, 2, 2, 7]})

第一个不同：`.transform`无法进行聚合，而`.apply`则不一定：

df.groupby('s')['number'].apply(max)
# 结果如下
s
s1     3
s2    10
s4     7
Name: number, dtype: int64


df.groupby('s')['number'].transform(max)
# 结果如下
0     3
1     3
2    10
3    10
4    10
5    10
6     7
7     7
8     7
Name: number, dtype: int64

引申：所以.transform可以这样使用(但.apply不行)

df[df.groupby('s')['number'].transform(max) ==df['number']]
# 结果如下
    s	m	values number
0	s1	m1	a	3
4	s2	m4	bg	10
8	s4	m2	1	7

第二个不同：`.apply`允许对dataframe的多个series进行操作，而`.transform`只能如上所述搞一个：

def zidingyi(df):
    return df['values'] + df['number'].astype('str')

df.groupby(['s']).apply(zidingyi)
# 结果如下
s    
s1  0      a3
    1      n2
s2  2     cb5
    3     mk8
    4    bg10
    5     dg1
s4  6     rr2
    7     cb2
    8      17
dtype: object

df.groupby(['s']).transform(zidingyi)
# 结果如下
<blabla>...
KeyError: 'values'

博客等级

码龄7年

39
原创

874
点赞

3760
收藏

228
粉丝

关注

私信

分类专栏

展开全部收起

最新评论

Python：入门 - 数据预处理 - 正则表达式之通配符
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性。
调参简例：SARIMA模型_手工调参过程
小白在呐喊: 这个函数参数没对应上，n_test和cfg_list搞反了
python笔记：df.plot()常见的坐标轴的操作，及正常显示负号
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性。
python 可视化：subplots的title和tick labels和tick操作案例要点
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
sklearn笔记：StratifiedKFold和StratifiedShuffleSplit的区别？
TravelLight92: 有个很奇怪的地方，比如做一个信用卡欺诈的数据问题，样本比例非常不平衡，用两种划分方式对比：train_test_split(shuffle=1,test_size=0.2,seed=1,str=y)得到一组score，用StratifiedKfold(test_size=0.2,seed=1,n_split=5)得到5组score； precision还好说，五组里面有超过一次划分的，虽然总体均值还是低于一次划分，还能接受！但召回，train_test_split比较高，StratifiedKfold的五组比train_test_split都要低，甚至有点情况下，5组里面没有一个高于train_test_split的，所以我怀疑这StratifiedKfold，但是查证，StratifiedKfold的确只在划分前洗一次牌，所有数据都会用到，就很离谱！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。