机器学习中，为何经常要对数据归一化？

最新推荐文章于 2024-08-17 11:24:13 发布

打工人小飞

最新推荐文章于 2024-08-17 11:24:13 发布

阅读量8.7k

点赞数 6

分类专栏：算法机器学习数理统计 & 数据挖掘人工智能文章标签：机器学习归一化标准化梯度下降归一化的好处

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huangfei711/article/details/79842920

版权

算法同时被 3 个专栏收录

50 篇文章 7 订阅

订阅专栏

42 篇文章 11 订阅

订阅专栏

数理统计 & 数据挖掘

25 篇文章 4 订阅

订阅专栏

机器学习中，为何经常要对数据归一化？原因有二：(1)归一化后加快了梯度下降求最优解的速度；(2)归一化有可能提高精度。

为什么归一化能提高梯度下降法求解最优解的速度？

假定为预测房价的例子，自变量为面积大小和房间数，因变量为房价。那么可以得到的公式为：

y = θ 1 x 1 + θ 2 x 2

$y=\theta_1x_1+\theta_2x_2$
其中，

x1 x 1 $x_1$ 代表房间数，

θ1 θ 1 $\theta_1$ 代表

x1 x 1 $x_1$ 变量前面的系数；

x2 x 2 $x_2$ 代表面积，

θ2 θ 2 $\theta_2$ 代表

x2 x 2 $x_2$ 变量前面的系数。

下面两张图（损失函数的等高线）代表数据是否归一化的最优解寻解过程：
未归一化：
这里写图片描述

归一化之后：
这里写图片描述

在寻找最优解的过程也就是在使得损失函数值最小的 $\theta_1，\theta_2$ 。当数据没有归一化的时候，面积数的范围可以从0~1000，房间数的范围一般为0~10，可以看出面积数的取值范围远大于房间数。也就导致了等高面为长椭圆形，非常尖，因为变量前的系数大小相差很大，当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走）。而数据归一化后，损失函数变量前面的系数差距已不大，图像的等高面近似圆形，在梯度下降进行求解时能较快的收敛。

因此如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则很难收敛甚至不能收敛。

归一化有可能提高精度

一些机器学习算法需要计算样本之间的距离（如欧氏距离），例如 KNN、K-means 等。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。

归一化与标准化的区别

归一化：把数变为（0，1）之间的小数；
标准化：将数据按比例缩放，使之落入一个小的特定区间。

常用的归一化方法

线性转换
$y = x - M i n V a l u e M a x V a l u e - M i n V a l u e$ $y=\frac{x-MinValue}{MaxValue-MinValue}$
对数函数转换
$y = l o g 10 x$ $y=log_{10}x$
反余切函数转换
$y = a t a n ( x ) * 2 π$ $y=\frac{atan(x)*2}{\pi}$
线性与对数函数结合

关于常用的标准化方法，详情可参考博文：常用的数据标准化方法。

打工人小飞

关注

6
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。