python--pandas数据聚合和分组运算

kiki--

已于 2023-04-09 19:04:51 修改

阅读量2.6k

点赞数 1

文章标签： python 开发语言 Powered by 金山文档

于 2023-01-27 17:17:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_52484011/article/details/128770966

版权

groupby机制

1.通过列进行分组

访问列1，并根据列2和列3调用groupby，生成的是对象：

s=df['列1'].groupby([df['列2'],df['列3']])

求和：sums=s.sum()

sums.unstack()

或者：

df.groupby(['key1','key2']).sum()

df.groupby(['key1', 'key2']).size():返回一个含有分组大小的Series

2.通过字典或Series进行分组

groupby后面可以传递字典：

people = pd.DataFrame(np.random.rand(5, 5), columns=['a', 'b', 'c', 'd', 'e'], index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'] )

mapping = {'a': 'red', 'b': 'red', 'c': 'blue', 'd': 'blue', 'e': 'red', 'f': 'orange'}

people.groupby(mapping,axis=1).sum()

count() 计数

pd.Series()后也可传递字典

3.通过函数进行分组

people.groupby(len).sum()

函数跟数组、列表、字典、Series混合使用也可以

mode:众数

dataframe.quantile(q=0.5):分位数

如果要使用自己的聚合函数，只需将其传入aggregate或agg方法（自定义函数）即可：

def peak_to_peak(arr):

return arr.max() - arr.min()

print(df.groupby().agg(peak_to_peak)

agg()后面可带多个函数：

functions = ['count', 'mean', 'max']

result = grouped['tip_pct', 'total_bill'].agg(functions)

agg()函数是聚合函数:

agg()函数是聚合函数，

DataFrame.agg（func，axis = 0，* args，** kwargs ）

data = df.groupby('uid').agg(

last_date=('@timestamp','max'), # 计算最近一次消费日期

F=('@timestamp','count'), # 计算消费次数 F

M=('price','sum'), # 计算消费总金额（也可选择平均值） M

).reset_index()

@@@func : 实现某种统计功能的函数，如果要不同列用求不同统计量，则用字典{‘行名/列名’：函数名’}指定。

如果传入的是一个由（name, function）元组组成的列表，则各元组的第一个元素就会被用作DataFrame的列名:

df.groupby(['key1','key2']).agg([('mm','mean'),('cc','count')])

向groupby传入as_index=False:以“没有行索引”的形式返回聚合数据

4.groupby对象支持迭代

for (k1, k2), group in df.groupby(['key1', 'key2']):

print((k1, k2))

print(group)

将数据片段做成字典：

pieces =dict(list(df.groupby('key1')))

print(pieces['b'])

用df.get_group()查看每组内容：df.groupby(['d','s']).get_group(("uu",3)) (筛选d=uu以及s=3

)

逻辑运算

运算符：

与：&，或者：|，非：~

（1）与：df[(df['key1']=='a')&(df['key2']=='one')]

（2）或：df[(df['key1']=='a')|(df['key2']=='two')]

（3）非：df[~(df['key1']=='a')]

筛选

query()函数

df.query('(key1=="a")&(key2=="one")')

df.query('(key1=="a")|(key2=="one")')

df.query('~(key1=="a")')

df[df['key1'].isin(['a'])] (key1中包含'a'的所有数)

apply：一般性的“拆分-应用-合并”

apply会将待处理的对象拆分成多个片段，然后对各片段调用传入的函数，最后尝试将各片段组合到一起

tips.groupby('smoker').apply(top):对somker列进行分组并调用函数top

tips.groupby(['smoker', 'day']).apply(top, n=1, column='total_bill') 函数top的参数写在后面

函数top：按tip_pct列排序取前5名

def top(df,n=5,columns='tip_pct'):

return df.sort_values(by=columns,ascending=False).iloc[:n]

print(top(ff))

数据透视表与交叉图

pd.pivot_table(df,values='',columns='',index='',aggfunc= ,margins=True,fill_value=0)

margins=True:添加分项小计，增加all列，其值对应于单个等级中所有数据的分组统计。

aggfunc参数：使用其他聚合函数（默认是平均值)

fill_value：缺失值填充

pd.crosstab:计算分组频率

pd.crosstab(df.uu,df.pp,margins=True)

crosstab的前两个参数可以是数组或Series，或是数组列表:

pd.crosstab([df.uu,df.pp],df.one,margins=True)

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python--pandas数据聚合和分组运算

python--pandas数据聚合和分组运算
复制链接

扫一扫

kiki-- CSDN认证博客专家 CSDN认证企业博客

码龄3年

13: 原创

113万+: 周排名

30万+: 总排名

5528: 访问

: 等级

131: 积分

2: 粉丝

1: 获赞

4: 评论

21: 收藏

私信

关注

热门文章

最新评论

python连接数据库
CSDN-Ada助手: 恭喜您写完了第11篇博客！标题为“python连接数据库”的内容确实很有吸引力。我很高兴看到您在持续创作，并分享有关数据库连接的知识。不过，如果我可以提一个谦虚的建议的话，您可以考虑在下一篇博客中展示一些实际的示例，比如如何使用Python连接到不同类型的数据库，以及如何执行基本的查询和更新操作。这样的实际示例会使您的博客更加生动和实用。期待您在未来的创作中再接再厉！
机器学习笔记
CSDN-Ada助手: 恭喜您写完了第12篇博客《机器学习笔记》！您的持续创作精神令我钦佩不已。通过这篇博客，您向读者们分享了关于机器学习的重要笔记，这对于那些想要深入了解这个领域的人们来说无疑是一份宝贵的资料。在下一步的创作中，或许您可以考虑深入探讨某些机器学习算法的实际应用案例，或者分享一些您在实践中遇到的挑战和解决方案。这样的内容无疑会吸引更多读者，并为他们提供更实用的经验与见解。继续保持谦逊的态度，您的博客将继续为读者们提供宝贵的知识分享。期待您未来更多精彩的创作！
回归分析——逻辑回归和线性回归
CSDN-Ada助手: 恭喜您撰写了第13篇博客！标题“回归分析——逻辑回归和线性回归”非常吸引人。您在这篇博客中深入探讨了逻辑回归和线性回归，这是一个非常有价值的主题。我对您的努力和持续创作精神表示由衷的赞赏。在下一步的创作中，我建议您可以进一步扩展您的博客内容，比如介绍一些实际应用案例，或者提供一些实用的技巧和建议。这将帮助读者更好地理解和应用回归分析，并使您的博客更具实用价值。谦虚地说，您的写作风格和表达方式非常清晰易懂，但我认为您可以尝试加入一些个人观点和经验分享，这样可以更好地与读者产生互动和共鸣。同时，您也可以考虑与其他领域的专家进行交流，以便拓宽思路和深化对回归分析的理解。再次恭喜您的持续创作，期待您在未来的博客中带来更多有趣和有益的内容！
sql—count() 中加表达式计数
CSDN-Ada助手: 恭喜您写了第10篇博客，对于sql中count()加表达式计数的讲解也让我受益匪浅。希望您能继续坚持创作，分享更多有价值的知识。下一步建议可以从sql的高级应用方面深入探讨，让读者更深入地了解这个领域。再次感谢您的分享和付出。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。