读取数据
CSV
data_frame=pd.read_csv('test.csv',header=None,names=["",""])
参数:
- flie path:不带路径可用‘’,带路径注意对/进行转换,使用"",或r’’
- header:列名,默认是第一行,None表示不使用第一行
- names:自定义列名
合并两个dataframe
dataframe_combined=pd.concat([df1,df2,df3],axis=0)
缺失值
print(df.isna()) #查看缺失值,True/False
print(df.loc[df["any_column_name"].isna(),:]) #查看缺失值
df.dropna(axis=0,how='any',inplace=True) #删除缺失值
查找与提取数据
data_frame_sample=dataframe[dataframe['ID']==ID_number]
data_frame_sample=dataframe[dataframe['ID'].isin([ID_number1,ID_number2])]
变量因子化(as.factor in R)
df["grade"] = df["raw_grade"].astype("category") #把数据类型转为category
df["grade"].cat.categories #查看category的所有取值
df["grade"].cat.categories=["a","b","c"] #为每个category重新赋值
分组处理
dataframe_grouped=dataframe.groupby("group_factor") #根据group_factor分组
dataframe_grouped.get_group("group_name") #提取单独的组
for name,group in dataframe_grouped: #对每一组进行迭代
print(name)
print(group)
dataframe.drop(data_frame_grouped.get_group(name).index) #删除指定group
储存数据
CSV
dataframe.to_csv('test.csv',header=0,index=0,encoding='UTF-8') #header=0不保存列名,index=0不保存行编号