数据清洗中,主要的处理是缺失值,异常值和重复值,所谓清洗,就是对数据集进行丢弃,填充,替换,去重等操作,实现去除异常,纠正错误,补足缺失的目的。
数据列缺失,
1.行记录缺失,数据丢失(通常无法找回)
2.数据列值缺失
----------------------------------------------------
这里主要说明数据列缺失处理
1.丢弃: 直接删除行记录
a.但是以下方式不适用,缺失行记录比例较大,例如超过百分之10。
b.缺失记录存在明显的数据分布特征,比如集中在某几类或者一类
2.补全:相对丢弃 补全更常用,
a.统计法,对于数值型,适用均值,加权均值,中位数等方法补全,对于分类型,采用类别众多的补全
b.模型法 ,基于已有字段,对于缺失字段进行预测, 数值变量 进行回归模型补全,分类变量,分类模型补全
文章来源-宋天龙.《Python数据分析与数据化运营》