对所有数据进行分组然后对每一个组应用一个函数之进行分组统计或者生成透视pd有一个groupby功能 这是上述内容的核心 可以切片、切块、摘要
pd可以进行:
机算分组摘要统计 如计数、平均值、标准差、自定义函数
计算分组概述统计 如数量、平均值、标准差、自定义函数(这俩有啥区别。。)
应用组内转换或其它运算 如规格化、线性回归、排名、选取子集
计算透视表或交叉表
执行分位数分析以及其他统计分组分析
透视表叫 pivot table
df有一个pivot_table
pandas也可以添加顶级的pivot_table函数
margins是为分项进行小计
df.pivot_table(index=['d1','d2'])
就出现了这个透视表
然后左边的index是d1 d2 然后其他项都在column
df.pivot_table(['d1','d2'],index='k1',columns='k2')
最上边的column是d1d2 然后下一级是k2
k1是在左边
里边有两个参数
一个是margins 前边有提过
margins=True 就是求和 默认是不求的
aggfunc=len是可以得到有关分组大小的交叉表
对事件序列数据的聚合 叫做重采样 (chong)
guoupby机制
在一个指定的轴上进行三步:拆分、应用、合并
特别的,拆分 是沿着一个轴把同样的放在一起 这就进行了分组
分组除了根据上边这个名字,还可以根据长度
如果是字典或是Series 可以按照待分组轴上的值 和分组名的对应关系