数据归一化
目的:
- 统一量纲
- 达到更好的模型训练效果(如BP算法中加速收敛)
方法
线性函数归一化
如使用原始数据的最小、最大值将原始数据变换到[0,1]范围内
0均值标准化(Z-score standardization)
将原始数据转化为均值为0,方差为1的数据集,公式为
其中,μ、σ分别为原始数据集的均值、方差。该方法要求原始数据的分布近似为高斯分布,否则归一化的效果会变差。
那什么情况下使用什么归一化方法呢?
首先考察两种方法对二维数据集X,Y的方差和协方差的影响。
对于线性函数归一化
X′=CXY′=CY
归一化后的方差为
cov(X′,Y′)=∑(CXi−CX¯¯¯)(CYi−CY¯¯¯)n−1=Ccov(X