判断数据是否有重复值
any(df.deplicated())
#any函数:在多个条件判断中,只要有一个条件为True,any的结果为True。
删除重复项
df.drop_deplicates(inplace=True)
缺失值
删除法:比例小于5%或大于85%
替换法:连续变量使用均值和中位数,离散使用众数
插补法:回归插补,K邻近插补,拉格朗日插补
判断是否有缺失值
any(df.is_null())
删除缺失值
df.dropna()
df.drop('age',axis=1)
前向替换,后向替换
df.fillna(method='ffill')
df.fillna(method='billf')
常数替换,统计值替换
df.fillna(value=0)
df.fillna('gender':df.gender.mode()[0],
'age':df.age.mean(),
'income':df.income.median())
dropna,drop,fillna方法使用inplace=True改变原table
异常值处理
异常值检测有两种:
①n个标准差法