2.1数据预处理
数据预处理占到60%, 数据清洗、数据集成(属性冗余问题),数据变换、数据规约。
数据清洗主要包括:缺失值处理(均值、中位数、众数插补,最近临插补、回归方法、插值法)、异常值处理(删除、视为缺失值、平均值修正)。
2.1.1 数据列缺失的4种处理方法
数据缺失分为两种:一是行记录的缺失,这种情况又称数据记录丢失;二是数据列值的缺失,即由于各种原因导致的数据记录中某些列的值空缺,不同的数据存储和环境中对于缺失值的表示结果也不同,例如,数据库中是Null,Python返None,Pandas或Numpy中是NaN。
在极少数情况下,部分缺失值也会使用空字符串来代替,但空字符串绝对不同于缺失值。从对象的实体来看,空字符串是有实体的,实体为字符串类型;而缺失值其实没有实体的,即没有数据类型。丢失的数据记录通常无法找回,这里重点讨论数据列类型缺失值的处理,通常有四种思路:
1.丢弃
这种方法简单明了,直接删除带有缺失值的行记录(整行删除)或者列字段(整列删除),减少缺失数据记录对总体数据的影响。但丢弃 意味着会消减数据特征,以下任意一种场景都不宜采用该方法:
- 数据集总体中存在大量的数据记录不完整情况且比例较大,例如超过10%,删除这些带有缺失值的记录意味着将会损失过多有用信息。
- 带有缺