df = pd.read_csv('文件地址')
pd.read_csv(’ 文件地址 ‘,header=None, sep='\s+',names=[' ',' ',' ' ])
#header把第一行单独列出来,sep按照空格隔开
df.shape #基本形状
df.index #索引
df.columns #索引列
df.dtype #某列数据类型
df.info() #查看总体情况
df[' '].count() #某列数量
df[' '].value() # 某列的值
df[' '].value_count() #某列值的数量
df[' '].unique() #唯一值
df[' '].nunique() #唯一值的数量
df.isnull().sum() #缺失值数量
df.notnull().sum() #非缺失值数量
df[' '].head() ,type(df[' ']) #某列取值
df[[' ',' ']].head() ,type(df[[' ',' ']])#多列取值
###相关性
df[' '].var() #方差
df[' '].std() #标准差
###汇总统计
df.sum() #每一列相加
df[[’ ‘].cumsun().head() #逐行累加
df.max() df.min() #最大值 最小值
df.idxmax() df.idxmin() #最大值 最小值索引
df.mean() df.median() #平均值 中位数
df.describe().T #汇总统计 转置
df.describe().iteritems() #取列的名称和数据
###数据抽样
data = df.sample(n= 5,replace=False) #replace允许或者不允许对同一进行采样
pandas中的应用函数apply
df[' '].apply()
合并数据
df_1=pd.concat(objs = [df1,df2,df3],axis = 0) #合并数据,以行维度进行合并
df_1.sample(n=7,replace False) #随机不放回抽样7个
df_2= pd.merge(left=df1,right=df2,on=' ',how=' ')
索引问题
df.set_index([keys=' ']) #设置索引
d.reset_inedx(inplace = True) #取消索引
d.iloc[ : , : ].head #前五行数据
排序问题
df.sample(n=5,replace = False) #通过随机不放回抽样5个数据
data.sort_index
df.sort_values(by=[''] ,ascending=[ ]) #指定列的值排序
重复值处理
df.duplicated(subset=[' '] ,keep=' ' ,head()) #查找重复值
df.drop_duplicated(subset=[' '] ,keep=' ' ,head().iloc()) #删除重复值
df.drop_index.duplicated() #查找重复索引
数据分组
df.groupby(by=['地区'], as_index=True).agg(' 年份 ' : [' ',' ',' ']).head() #制定一列是聚合列
df.groupby(by=['地区'], as_index=True).年份.agg([' ',' ',' ']).head()
处理缺失值
df.isnull().sum #查找所有数据的缺失情况
df.dropna().isnull().sum() #删除缺失值数据
df.fillna(method=' ffill ' ).head() #使用前一个值填充
df.fillna(method=' bfill ' ).head() #使用后一个值填充
其他
pd.to_datatime(df[' '], format=' %Y%m%d ') #将int类型转化成时间类型datetime
agg([' ' ,' ' ]) #对分组后的结果进行指定聚合
df.pivot_table(index = ' ',aggfunc = { ' ' : ' 操作 '} )