Dear all,
嘿 ~ 好久不见,感觉快要有半年没有更新了,看着偶尔冒出来的关注,还是有点不好意思的(……内心狂喜……)。对,我又、又转行了! 所以不能继续写 Django 了, 但是和Python 就此结下的孽缘还没有结束。
新的内容,新的坑,以后就请多多指教咯!
本篇内容:基于numpy、pandas 库,对 groupby 在数据分析中的基础应用场景,进行演示。
基础知识: 对 numpy、pandas 库的有初步的接触
工具: Notebook
适用:初级
一、groupby 能做什么?
分组!
分组后,组内运算!
想按照 “男女” 快速分组,然后分别计算男女平均身高这类的问题,简直就是小case!
按照"每年、每月、每周" 做报表统计,没问题!
支持自定义分组,自定义函数,随便你怎么玩!
二、单类分组
A.groupby("性别")
首先,我们有一个变量A,数据类型是DataFrame
想要按照【性别】进行分组
得到的结果是一个Groupby对象,还没有进行任何的运算。
describe()
描述组内数据的基本统计量
A.groupby("性别").describe().unstack()
* 只有数字类型的列数据才会计算统计
* 示例里面数