读写csv文件
- 写入
df.to_csv(filename) - 读取
pd.read_csv(filename,header=0) #保留列属性,header=None不读列属性
缺失值处理
- 去掉包含缺失值的行
df.dropna(how=’any’) - 对缺失值进行填充
df.fillna(value=5)
选择行或列
- df.iloc[3] #第四行
- df.iloc[:,3] #第四列
- df.iloc[3:5,0:2] #第四到六行,第一到三列
df.iloc[[4,5,6],[0,1,2]] #第四到六行,第一到三列
df[] #这是对行进行切片
统计
- df.describe() #描述
- df.head() #头五行
- df.tail() #尾五行
- df.T #转置
- df.sort(columns=’B’)# 对轴进行排序
- df.mean() #对每列求均值 通过axis=0/1 确定行列
映射
- df.apply(function) #通过自定义函数,应用于df中
例如:df.apply(lambda x:x.max()-x.min()) #求得每列最大减最小,通过axis=1 进行行操作
合并
- pd.concat(list) #list各元素为各个DateFrame
例如 pieces = [df[:3],df[3:6],df[6]];pd.concat(pieces)