拿到一份脏数据时,缺失值的处理是很重要的一个步骤。本篇博客分享如何用Python查看、删除、填充缺失值
查看缺失值:
df.info()
df['col_name'].isnull() #但数据量多时用这条看不清楚...
删除缺失值:
df.dropna(thresh=len(df)*0.8, axis=1)
#thresh参数含义,某行或某列起码有thresh个非NA数。
#以上表示如某列缺失值超过20%,则删除
df.dropna(how='all')
#删除空行,默认为df.dropna(how='any'), 只要行中有NA,就会删除整行。
填充缺失值:
df.fillna({
'colA':'fill_value1', 'colB':</