使用 groupby()
函数可以按照指定的分组特征对数据进行分组。
示例:
import pandas as pd
# 假设有一个名为data的DataFrame,其中有两列 'A' 和 'B'
data = {'A':[1,1,2,2], 'B':[3,4,5,6]}
df = pd.DataFrame(data)
# 按照列 'A' 进行分组
grouped = df.groupby('A')
# 可以使用groups属性查看分组后的各个组
print(grouped.groups)
# 可以使用group属性查看分组后的各个数据块
for name, group in grouped:
print(name)
print(group)
输出:
{1: [0, 1], 2: [2, 3]}
1
A B
0 1 3
1 1 4
2
A B
2 2 5
3 2 6
上面的示例中,使用了 df.groupby('A')
将 DataFrame 按照列 'A' 进行了分组,并将分组结果存储在变量 grouped
中。其中 grouped.groups
可以查看分组后的各个组,for循环可以查看分组后的各个数据块
还有一些其他的操作,例如聚合,如:
grouped.sum()
grouped.mean()
上面两个例子可以对每组数据块进行求和和平均值。
此外,也可以指定多个列进行分组,例如:
grouped = df.groupby(['A','B'])
这样会在 A,B 两列上进行分组。