dataframe(简称df)
1.df常用属性
df.index 获取行索引
df.columns 获取列索引
df.values 获取以二维数组形式表示的df
df.dascribe() 获取每一列的统计结果
df.T 转置,注意:因为df的每一列为一个series对象,所以要求每一列的数据类型一样,转置后可能会出现数据类型的转换
2.df常用方法
df.loc[ m,n] 获取行列标签为m,n的元素的值
df.iloc[m,n] 获取行列索引为m,n的元素的值,此处的m,n不同于loc函数
缺失值NaN处理:
df.fillna(num) 将NaN处填充为num
dropna(axis=0,how='any') :df.dropna() /df.dropna(how='any') 删除NaN所在行
df.dropna(how=‘all’) 只删除所有值都为NaN的行
df.dropna(axis=1) 删除NaN所在列,此处是将处理方式由行变成列,df的默认处理方式是按行处理
pandas常用方法
df.mean()/df.mean(axis=1) 求每一列/行的平均值
df.sum()/df.sum(axis=1) 求每一列/行的和
df.sort_values(by='c1',ascending=False) 按照c1列的降序排列
df.sort_index(ascending=False,axis=0) 按照行索引的降序E
datetime(简称dt)
import datetime;
dateutil.parser.parse(' ') 按字符串内容生成时间对象
pd.to_datetime(' ') 按字符串/字符串列表内容生成时间对象
pd.date_range(start=' ',end=' ',periods=num,freq='A/M/W/D/H/M/S') 生成时间序列,其中start:开始日期,end:结束日期,periods:生成个数,freq:生成间隔(A(year), M(month), W(week), B(business), D(day), H(hour), T(mintes), S(second))默认为‘D’