Pandas - 数据分组统计_pandas分组计数

最新推荐文章于 2024-05-04 04:45:24 发布

戎以欣

最新推荐文章于 2024-05-04 04:45:24 发布

阅读量303

点赞数 3

分类专栏： 2024年程序员学习文章标签： pandas

本文链接：https://blog.csdn.net/2301_77094372/article/details/137659331

版权

2024年程序员学习专栏收录该内容

47 篇文章 0 订阅

订阅专栏


示例3:


        求各二级分类的七天点击量。首先按“二级分类”分类，而后进行分组统计求和。

df1 = df1.groupby(‘二级分类’)[‘七天点击量’].sum()


## 2.对分组数据进行迭代


示例1:


        按照“一级分类”分组，并且输出每一分类中的订单数据

抽取数据

df1 = df[[‘一级分类’,‘七天点击量’,‘订单预定’]]
for name, group in df.groupby(‘一级分类’)
print(name)
print(group)


        其中name是‘一级分类’， group是其他数据。因此使用groupby()函数对多列进行分组，那么需要在for循环中指定多列。


## 3.对分组的某列或多列使用聚合函数


Python也可以实现像SQL中的分组聚合运算操作，主要通过groupby()函数与agg()函数实现。


        以下代码实现：


        1. 以'一级分类'分组，求分组后的平均值与和


        2.以'一级分类'分组，求分组后'七天点击量'的平均值与和，求'订单预定'的和

df1.groupby(‘一级分类’).agg([‘mean’,‘sum’])

df1.groupby(‘一级分类’).agg({‘七天点击量’:[‘mean’,‘sum’],‘订单预定’:[‘sum’]})


我们可以通过自定义函数实现数组分组统计。书本p110


        以下代码实现：


        1.统计一月份销售数据中，购买次数最多的产品，及其人均购买数，人均花费，总购买数，总花费。

df = pd.read_excel(‘1月.xlsx’)
max1 = lambda x: x.value_counts(dropna=false).index[0]
df1 = df.agg({‘宝贝标题’:[max1],
‘数量’:[‘sum’,‘mean’],
‘卖家实际支付金额’:[‘sum’,‘mean’]})
print(df1)


## 4.通过字典和Series对象进行分组统计


##### 1.通过字典进行分组统计


        创建字典，df.groupby()函数通过字典内信息分组。

import pandas as pd #导入pandas模块
#解决数据输出时列名不对齐的问题
pd.set_option(‘display.unicode.east_asian_width’, True)
df=pd.read_csv(‘JD.csv’,encoding=‘gbk’) #导入csv文件
df=df.set_index([‘商品名称’])
#创建字典
mapping={‘北京出库销量’:‘北上广’,‘上海出库销量’:‘北上广’,
‘广州出库销量’:‘北上广’,‘成都出库销量’:‘成都’,
‘武汉出库销量’:‘武汉’,‘西安出库销量’:‘西安’}
df1=df.groupby(mapping,axis=1).sum()
print(df1)


##### 2.通过Series对象进行分组统计


        创建一个Series对象，然后将Series对象传给groupby()函数实现数据分组。Series对象内放索引+值：如'北京出库销量'，对应值'北上广'。

import pandas as pd #导入pandas模块
#解决数据输出时列名不对齐的问题
pd.set_option(‘display.unicode.east_asian_width’, True)
df=pd.read_csv(‘JD.csv’,encoding=‘gbk’) #导入csv文件
df=df.set_index([‘商品名称’])
data={‘北京出库销量’:‘北上广’,‘上海出库销量’:‘北上广’,
‘广州出库销量’:‘北上广’,‘成都出库销量’:‘成都’,
‘武汉出库销量’:‘武汉’,‘西安出库销量’:‘西安’,}
s1=pd.Series(data)
print(s1)
df1=df.groupby(s1,axis=1).sum()
print(df1)




《python数据分析》p106



**自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。**

**深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

**因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。**
![img](https://img-blog.csdnimg.cn/img_convert/6d7d40bedfddeb0f25d05a644e75627c.png)
![img](https://img-blog.csdnimg.cn/img_convert/f74c06846dcc041cbb108c4c7a24c4ed.png)
![img](https://img-blog.csdnimg.cn/img_convert/aa9b01f08a8e56144470f1f0daff4028.png)
![img](https://img-blog.csdnimg.cn/img_convert/d3afdafc6281e0f78f580a401f5af5ad.png)
![img](https://img-blog.csdnimg.cn/img_convert/9fad71b9ab0bd6aaa3a531fef94d36cd.png)

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！**

**由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

**如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）**
![img](https://img-blog.csdnimg.cn/img_convert/ba070a1399038ef9e189af23a4bef07a.png)

大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

**如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）**
[外链图片转存中...(img-5RqkpAn4-1712856734997)]