python numpy和pandas的聚合分组数据处理及分析

本文介绍了如何使用numpy和pandas进行数据的聚合和分组处理。通过示例展示了count、sum、mean、median等聚合函数的应用,以及groupby方法的使用,包括求平均值、频率、数据类型分组和多函数聚合。同时,还探讨了transform方法以及数据透视表的创建,以及计算分组频率的方法。
摘要由CSDN通过智能技术生成
import numpy as np
import pandas as pd
'''
聚合函数:
count  分组中非NA值的数量
sum    非NA值的和
mean 非NA值的平均数
median 非NA值的算术中位数
std、var无偏(分母为n-1)标准差和方差
min、max 非NA值的最小值和最大值
prod 非NA值的积
first、last 第一个和最后一个非NA值
'''
data=pd.DataFrame({'level':['a','b','c','b','a'],
               'num':[3,5,6,8,9]})
combine=data['num'].groupby(data['level'])
print(combine.sum())
#分组求平均值
print('分组求平均值:',combine.mean())
#返回每个分组的频率
print('返回每个分组的频率:',combine.size())
#根据数据的所属类型对进行分组
combine_1=data.groupby(data.dtypes,axis=1)
print('数据的所属类型对进行分组:',dict(list(combine_1)))#这里combine_1的是Serise数据结构,需要转换线转换为列表,再转成字典的形式才能打印
#数据聚合
new_data=data.groupby('level')
print('数据聚合求平均值',new_data.agg('mean'))
#支持多个聚合函数一起使用
data_2=pd.DataFrame({'level':['a','b','c','b','a'],
               'num':[3,5,6,8,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值