本文总结一下对pandas
中的groupby()
函数的一些基础用法 数据集节选自titanic.csv
,在jupyter notebook中运行
导入依赖库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
读入数据
data = pd.read_csv('titanic.csv')
data
基本操作
按单个属性和按两个属性(按多个属性分组类似)分组的情况的应用
grouped = data.groupby('Pclass') # 按等级分组
grouped_multi = data.groupby(['Pclass', 'Sex']) # 按等级和性别分组
print(grouped)
print(grouped_multi)
groupby方法返回的是DataFrameGroupBy对象,这是原DataFrame按照属性分组的结果,可以看成是分组后的多个DataFrame的组合
print(grouped['Age'])
对DataFrameGroupBy对象取一列,返回的是SeriesGroupBy对象,可以看成是分组后的多个Dat