panda的dataframe类:
DataFrame有四个重要的属性:
index:行索引。
columns:列索引。
values:值的二维数组。
name:名字。
数据操作:
维度查看
df.shape
获得数据表基本信息(维度,列名,数据类型,占用空间等)
df.info()
得到数据的均值、方差、最值等
df[‘a’].describe()
获取每一列的数据格式
df.dtypes
获得某一列的数据格式
df[“A”].dtypes
读取头几条数据
df.head(1)
读取后几条数据
df.tail(1)
查看空值
df.isnull()
查看唯一值
df.unique()
查看数据表的值
df.values
统计每个值的数量
df.value_counts()
获取行的索引
df.index
数据表合并
df_inner=pd.merge(df,df1,how=‘inner’)
df_left=pd.merge(df,df1,how=‘left’)
df_right=pd.merge(df,df1,how=‘right’)
df_outer=pd.merge(df,df1,how=‘outer’)
使用某一列的均值填充nan
df[‘A’].fillna(df[‘A’].mean())
更改数据格式
df.atype(‘int’)
更改列名称
df.rename(columns={‘a’: ‘A’})
数据替换
df.replace(‘A’,‘B’)
数据提取
loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签和位置进行提取。
计算两个列的相关度
df.[‘A’].corr(df.[‘B’])
皮尔逊(pearson)相关系数
df.corr()
Kendall Tau相关系数
df.corr(‘kendall’)
spearman秩相关
df.corr(‘spearman’)
统计某一列中各个元素出现的次数
df.[‘A’].value_counts()
删除列
del df.[‘A’]
删除有空值列
df[‘A’].dropna()
找出有空值的列
miss = df.columns[df.isnull().any()].tolist()
统计列的空值数
df[miss].isnull.sum()
计算偏度
df.skew()
计算中位数
df.median()
计算众数
df.mode()
计算均值
df.mean()
计算峰度
df.kurt()
计算四分值:
df.quantile(q=0.25,interpolation=‘linear’)
获取指定的时间和日期
pd.to_datetime
生成随机时间
pd.data_range(start=“20200101”,end=“20201031”,periods=10,freq=“D”)