以下为积累 Python 常用数据处理方法,不定时更新。
1.遍历某文件夹下所有文件 :
files= os.listdir(path)
2.取消科学计数法:
np.set_printoptions(suppress=True), df[‘a’].astype(‘int64’)
3.判断 DataFrame 为空:
全部数据集 df.isnull()
为空的列 df.isnull().any()
挑选某一列为空的行 df[df[‘a’].isnull().values == True]
某一元素为空:np.isnan(x), x is np.nan
(一件有意思的事情是,np.nan == np.nan, np.nan is np.nan, np.isnan(np.nan) 的结果是不同的
http://lbingkuai.iteye.com/blog/1684971
)
4.str格式的时间转换成时间:
df[‘date’].apply(lambda x:datetime.datetime.strptime(x,’%Y-%m-%d’))
5.两个时间间隔天数:
(df[‘date1’] - df[‘date2’]).apply(lambda x:x.days)
6.list截取:
list[m:n],顾头不顾尾,末尾的值不被包含进来