这几天遇到比较多的dataframe操作,频繁使用,在此整理记录下,方便查找.
1.num为列的数字序号,name=df.columns[num],返回的是column的字符串名字,df[name]=df[df.columns[num]]=df['xxx']
2.关于panda中dataframe的与&运算,详情见我的博客,链接:https://www.cnblogs.com/Rvin/p/9504341.html
df_am = df[ np.array(df['MDTime']>=93000000) & np.array(df['MDTime']<113000000) ]
3.to_numeric适用于series,对字符串进行数字格式化, errors='coerce',忽略不能转化的格式,例如
格式化之前为S[2]='123',格式化结果为S[2]=123
for i in range(df.shape[1]):
df[df.columns[i]] = pd.to_numeric(df[df.columns[i]], errors='coerce')
4.drop方法及dropna方法
df.drop([0], inplace=True) # 删除列
df.drop(df.columns[0], axis=1, inplace=True) # 删除列
df.dropna(how='all',inplace=True, thresh=None) # 这个是dropna的用法,how可选
any-有一个na就符合条件,
all--全部为na才符合条件,
thresh参数(和h