一、什么是数据规范化
数据规范化是数据挖掘中数据变换的一种方式,数据变换将数据转换或统一成适合于挖掘的形式。而数据规范化是指将被挖掘对象的属性数据按比例缩放,使其落入一个小的特定区间(如[-1, 1]或[0,1])。
二、数据规范化的作用
对属性值进行规范化常用于涉及神经网络或距离度量的分类算法和聚类算法中。比如使用神经网络向后传播算法进行分类挖掘时,对训练元组中度量每个属性的输入值进行规范化有助于加快学习阶段的速度。对于基于距离度量相异度的方法,数据规范化可以让所有的属性具有相同的权重。
三、数据规范化的三种方法
数据规范化的常用方法有三种:按小数定标规范化、最小-最大值规范化和z-score规范化。
1、按小数定标规范化
通过移动属性值的小数点位置进行规范化,通俗的说就是将属性值除以10的j次幂。公式为:
其中,j 是使得Max(||)<1的最大整数。比如,假设属性A的取值区间是A
[-986,917]。则A的最大绝对值为986,显然只要将属性A中的值分别除以1000,就满足Max(|
|)<1,这时 j=3。