数据归一化方法
1)min-max标准化
也叫做离差标准化,是一种对原始数据样本的 线性变换处理,让样本从原本的值通过映射转化为0~1之间的值。
NorSample=(Sample-min)/(max-min)
其中,min为样本中的最小值,max为样本中的最大值。
优点是:简单易行,容易理解实现
缺点是:数据样本不能频繁的变更,一旦有新的样本加入时,max,min需要重新进行定义。
2 )z-score标准化
又称标准差标准化,处理后的数据符合标准正态分布。
ZSample=(x-mean)/std
其中,mean为样本均值,std为样本标准差
Z-Score最大的优点就是简单,容易计算,不受数据量级的影响,消除量级给分析带来的不便。
但估算Z-Score需要总体的平均值与方差,但是这一值在真实的分析与挖掘中很难得到,大多数情况下是用样本的均值与标准差替代。Z-Score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。