文章目录
1 数据预处理基本思想
- 数据在搜集时由于各种原因可能存在缺失、错误、不一致等问题
- 用于描述对象的数据有可能不能很好地反映潜在的模式
- 描述对象的属性的数量可能有很多,有些属性是无用的或者冗余的
数据预处理的任务:
(1)数据规范化(normalization)
(2)数据离散化(discretization)
(3)数据清洗(data cleaning)
(4)特征提取与特征选择
2 数据规范化
数据规范化又称标准化(standardization),通过将属性的取值范围进行统一,避免不同的属性在数据分析的过程中具有不平等的地位。
常用方法如下:
2.1 最小-最大法(min-max normalization)
假设需要映射到目标区间为[L,R ]。原来的取值范围为[l, r ],则根据等比例映射的原理,一个值x映射到新区间后的值v的计算方法如下:
例如,对于描述客户的属性“年收入(万元)”,如果原来的取值范围为[3,200],新的取值范围为[0,1],则若某客户的年收入为60万元,规范化后为(60-3)/(200-3)=0.29
2.2 零均值规范化(z-score)
z-score,又称零均值规范化(zero-mean normalization)。给定一个属性 A,设其取值的均值为µA,标准差为ρA,A的某个取值x 规范化后的值v 计算如下:
均值为µA 和标准差为ρA 通过已有样本的属性值进行计算。规范化后的属性A取值的均值为零。
例如,年收入属性的均值为82,标准差为39,则年收入60万规范化后为-0.56