什么都不多说,注释里有解释
from pandas import Series,DataFrame
import numpy as np
import os
df = DataFrame({
'a': list('abcab'),
'b': ['b','g','g','b','g'],
'c': np.random.randn(5),
'd': np.random.randn(5)
})
print(df)
# 将'b'这一列拿出来,按“b”进行分组等操作
group = df.groupby(['b'])
print(group)
# group会自动去重,count()计算每组中非nan的个数
'''print(group.count())'''
# 每个组中非nan的平均值
'''print(df.groupby(['a','b']).mean())'''
# describe() 描述组内数据的基本统计量
b = ['one','two','one','two','two']
a = df.groupby(b).describe()
# 将结果保存在csv文件中,读取csv文件用read_scv()
if os.path.exists( r'C:\Users\ASUS\Desktop\python\数据分析\图片\01.csv' ) == False :
a.to_csv(r'C:\Users\ASUS\Desktop\python\数据分析\图片\01.csv','w')
print(a)
# head(n) 获取每个组的前n行
df.groupby('b').head(2)
# transform() 的结果中属于同行名的元素的值会相同
print(df.groupby('b').transform('mean'))