归一化(Min-Max Normalization)
特点
1、对不同特征维度进行伸缩变换
2、改变原始数据的分布。使各个特征维度对目标函数的影响权重是一致的(即使得那些扁平分布的数据伸缩变换成类圆形)
3、对目标函数的影响体现在数值上
4、把有量纲表达式变为无量纲表达式 。
好处
1、提高迭代求解的收敛速度
2、提高迭代求解的精度
缺点
1、最大值与最小值非常容易受异常点影响
2、鲁棒性较差,只适合传统精确小数据场景。
公式
标准化(Z-score)
特点
对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。同时不改变原始数据的分布。
好处
1、不改变原始数据的分布。保持各个特征维度对目标函数的影响权重
2、对目标函数的影响体现在几何分布上
3、在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。