这一节数据统计,我们从以下四个方面学习:
1.数据分组方法
2.聚合函数使用
3.apply函数
4.透视图与交叉表
数据分组会生成一个Groupby对象,这个对象有很多方法供我们使用,我们先学会一些常用的即可,后续可自行学习。
![6406d29cd195c42c902875cb1d56cc78.png](https://i-blog.csdnimg.cn/blog_migrate/a836a7efbd154168a2348403999688d8.jpeg)
一:数组分组方法
df.groupby(by=) #可接收字符串,列表等
Groupby对象方法:
1.mean方法
2.sum方法
3.max和min方法
等等.................
![49a5b14253741a877090e699c24aa084.png](https://i-blog.csdnimg.cn/blog_migrate/b4f357bf4dab0d5eb197c5530201a70b.jpeg)
二:聚合函数使用
Groupby.agg(func) #可以为内置函数,自定义函数或者匿名函数
![c122989312d60b288c8c69dc2bd6d376.png](https://i-blog.csdnimg.cn/blog_migrate/99e3a1ba1f92a898e113a43a3bdc7c06.jpeg)
三:apply函数
Groupby.apply(func) #此方法也可用于dataframe数据
![136daa72124d824a484bbca4bc5c2dfd.png](https://i-blog.csdnimg.cn/blog_migrate/34bdd078003e854405733d5c91cc7e83.jpeg)
四:透视图与交叉表
透视图:根据行或列对数据进行统计
pd.pivot_table(data,index,columns,values,aggfunc,margins)
data:数据
index:行分组键
columns:列分组键
values:分组的字段
aggfunc:聚合函数
margins:是否需要统计
![28b9bd4124af45faf776181b7bd63257.png](https://i-blog.csdnimg.cn/blog_migrate/b45691a28ab3d44dfa88e2ea3e6fb2c7.jpeg)
交叉表:用于计算分组频率
pd.crosstable(data,index)
![2933691b08cdc7587724deb2e1bc5008.png](https://i-blog.csdnimg.cn/blog_migrate/e32b6736184f54a13a120b2c5b1ee6d4.jpeg)
Python数据清洗学习笔记(六):数据转换
Python数据清洗学习笔记(五):数据表的处理
Python数据清洗学习笔记(四):文件读写
Python数据清洗学习笔记(三):Pandas常用数据结构
Python数据清洗学习笔记(二):numpy的常用数据清洗函数
Python数据清洗学习笔记(一):numpy常用数据结构