第五章、淘米洗菜——数据预处理,知识点
缺失值处理
缺失值查询
data_excel.info()
空值查询
第一种方法
data_excel[data_excel['reject_code'].isna()]
第二种方法
data_excel[data_excel['reject_code'].isna()].head()
删除缺失值
data_excel.dropna()
data_excel.dropna(how='all')
填充缺失值,大于30%就删除处理
data_excel.fillna(0).head()
data_excel.fillna({'reject_code':-1})
重复值,一般就是删除处理
df.drop_duplicates(subset=[],keep=’’)
subset=[ ]
keep=‘first’
keep=‘last’
keep=False
异常值,一般就是删除处理,但是可以替换成其他数据
replace
repalce(a,b)
索引设置
设置索引,df.set_index()
重命名索引df.rename()
重置索引df.reset_index()
喜欢可以关注【小猪课堂】公众号了解更多内容
还可以添加qq:2658033991后备注书名加入读书群进行技术交流。