数据标准化应用在建模前期-数据预处理阶段。
数据标准化的目的是使各指标处于同一量级。
要求数据标准化的模型有:线性回归Linear Regression、逻辑回归Logistic Regression、支持向量机SVM、神经网络Neutral Network等。原因还没太理解,后面再补充。
数据标准化的方法有:
线性函数归一化(Min-Max Scaling)
零均值归一化(Z-score normalization)
- 归一化是标准化的一种。
(1)线性函数归一化(Min-Max Scaling)
对原始数据进行线性变换,将值映射到[0,1]区间,等比例缩放原始数据。
公式:
(2)零均值标准化(Z-score normalization)
将原始数据映射到均值μ 为0,标准差σ 为1的正态分布即高斯分布上。
假设原始数据的均值为μ,标准差为σ。公式:
z-score标准化要求原始数据近似服从高斯分布,只有原始数据近似服从高斯分布,才能把原始数据映射到均值为0、标准差为1的z分布上。如果不服从高斯分布,不适合用z-score标准化。