1 数据预处理说明
数据预处理数据的预处理又称属性值的规范化。属性具有多种类型,包括效益型、成本型、区间型、中间型等。这四种属性,效益型属性越大越好,成本型属性越小越好,区间型属性是在某个区间最佳,中间型是越接近某个数越好。
2 数据预处理的作用
在数据分析前,一般要进行属性值的规范化,主要有如下三个作用:
(1)指标正向化处理:属性值有多种类型,为了便于处理,可以进行极大化处理,使得表中任一属性下性能越优的方案变换后的属性值越大。
(2)无量纲化:每一列数值具有不同的单位(量纲),可以对每个指标进行无量纲化。
(3)归一化:属性值表中不同指标的属性值的数值大小差别很大,为了直观,需要把属性值表中的数值归一化,即把表中数值均变换到[0,1]区间上。
3 常见的数据预处理法
3.1 线性变换法
- 说明:
①线性变换法只能处理极大型指标和极小型指标;
②采用线性变换法时进行属性规范时,经过变换的最佳属性值不一定为1,最差属性值为0。 - 处理方法:
3.2 极差变换法(0-1变换法)
- 说明:
①极差变换法使每个属性变换后的最优值为1且最差值为0,可以进行标准0-1变换;
②极差变换法也是只能处理极大型指标和极小型指标。 - 举例:
3.3 区间型属性的变换
- 说明:有些属性既非效益型又非成本型,如生师比。显然这种属性不能采用前面介绍的两种方法处理。
- 举例:
3.4 中间型指标的变换
- 举例:
3.5 向量归一化法
- 举例:
3.6 标准样本变换法
- 举例: