数据标准化

最新推荐文章于 2024-06-24 00:45:00 发布

封不觉

最新推荐文章于 2024-06-24 00:45:00 发布

阅读量7.4k

点赞数 5

分类专栏：机器学习文章标签：特征缩放数据标准化归一化

本文链接：https://blog.csdn.net/clheang/article/details/46483649

版权

数据标准化是将数据按比例缩放，消除量纲影响，适用于梯度下降法和距离计算场景。线性标准化（Min-Max）将数据映射到[0,1]区间，标准差标准化（Zero-Mean）使数据符合标准正态分布，非线性标准化如log和arctan用于处理数据分化较大的情况。" 119312203,10544046,Nuxt.js项目打包与服务器部署详解,"['服务器部署', 'Nuxt.js', '前端开发', 'Node.js']

摘要由CSDN通过智能技术生成

数据标准化(normalization)

简介

特征缩放(Feature scaling $^{[1]}$ )也称为数据的标准化(normalization)，是将数据按比例缩放，使之落入一个特定区间。不同数据往往具有不同的量纲，会影响到数据分析的结果，为了消除数据之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。其中最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上。

数据标准化优点 $^{[2]}$

数据标准化到同一空间后有两个好处：
1. 加快了梯度下降求最优解的速度；
2. 有可能提高精度

数据标准化为什么能提高梯度下降法求解最优解的速度？

斯坦福机器学习视频做了很好的解释：

如下图所示，蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大，X1区间是[0,2000]，X2区间是 [1,5]，其所形成的等高线非常尖。当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走），从而导致需要迭代很多次才能收敛；
而右图对两个原始特征进行了特征缩放，其对应的等高线显得很圆，在梯度下降进行求解时能较快的收敛。
因此如果机器学习模型使用梯度下降法求最优解时，特征缩放往往非常有必要，否则很难收敛甚至不能收敛。

Feature scaling