基于pandas的数据清洗:
处理空值操作:
isnull :df.isnull()--检测出原始数据中哪些行中存在空值
notnull:
any:可以帮助我们检测df中哪些行列中存在空值,必须配合isnull使用:isnull->any(axis=1)
all:也可以帮助我们检测元数据中哪些行列中存在空···值,必须配合notnull使用:notnull->all(axis=1)
dropna:删除元数据中存在空值的行数据:df.dropna(axis=0):注意在drop函数中,0表示的是行,1表示的是列,与原生行列相反
fillna:覆盖元数据中存在的空数据,必须配合axis使用。
df.fillna(method='bfill',axis=0) #使用紧邻值填充空值
df.fillna(method='ffill',axis=1) #使用紧邻值填充空值
处理重复操作:drop_duplicates
df.drop_duplicates(keep='first'):保留第一个重复的数据
df.drop_duplicates(keep='last'):保留最后一个重复的数据
df.drop_duplicates(keep=False):全部删除
处理异常数据:
df.drop(labels=xxxx):直接删除异常数据
级联操作:级联是对表格做拼接
匹配级联:
pd.concat((df1,df1,df1),axis=1):三张表按照列进行级联
pd.concat与np.concatenate函数类似,只是多了一些参数:
objs
axis=0
keys
join='outer' / 'inner':表示的是级联的方式,outer会将所有的项进行级联(忽略匹配和不匹配),而inner只会将匹配的项级联到一起,不匹配的不级联
ignore_index=False
pd