机器学习笔记03_加速梯度下降算法——特征放缩（feature scaling）

但行此事1222

于 2023-10-02 16:02:50 发布

阅读量177

点赞数

文章标签：机器学习笔记算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73153984/article/details/133494581

版权

使用特征放缩的原因

图（1）

如图所示，当有的特征取值范围的数值很大，有的特征取值范围数值很小

那么为了去匹配真实数据，就要给数值大的特征点乘一个数值比较小的权重

同理，也要给数值小的特征点乘一个数值比较大的权重

使用这样的安排的原因：

图（2）

如果不按照上述方法安排权重大小，那么取值范围小的特征将会被忽略

接着上面的说

我们做出这样的安排之后，对于代价函数的等高线图（图1的右边那个图），就会变得又高又瘦

此时，尽管我的 w1 只是进行了微小的变动，梯度下降的步幅也会变得很大

这样会导致我们在寻找局部最小点的时候，会在最优解的周围来回浮动，导致梯度下降算法运行过慢

因此，我们引入了特征放缩（feature scaling）的方法来加速梯度下降算法

特征放缩的具体方法

最大值法

把所有特征都除以它自身取值范围的最大值，就可以把特征的取值范围限制在0、1之间

均值归一化（Mean normalization）

μ1 ：在训练样本中特征 X1 的均值

μ2：在训练样本中特征 X2 的均值

最终放缩之后的特征取值通常在-1 到 1 之间，会把特征取值变得有正有负

Z-score 标准化 / 归一化（Z-score normalization）

这个方法采用了正态分布的思想

μ1 ：在训练样本中特征 X1 的均值

μ2：在训练样本中特征 X2 的均值

σ1：在训练样本中特征 X1 的标准差

σ2：在训练样本中特征 X2 的标准差

最终同样把特征放缩到了一个取值较小的区间内

注意

如果某个特征取值本身就较小，那么不进行特征放缩也完全OK，对梯度下降运算也没什么影响

如图所示

本篇笔记图示来源：吴恩达《机器学习》系列课程

但行此事1222

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
机器学习笔记03_加速梯度下降算法——特征放缩（feature scaling）

如图所示，当有的特征取值范围的数值很大，有的特征取值范围数值很小那么为了去匹配真实数据，就要给数值大的特征点乘一个数值比较小的权重同理，也要给数值小的特征点乘一个数值比较大的权重如果不按照上述方法安排权重大小，那么取值范围小的特征将会被忽略接着上面的说我们做出这样的安排之后，对于代价函数的等高线图（图1的右边那个图），就会变得又高又瘦此时，尽管我的 w1 只是进行了微小的变动，梯度下降的步幅也会变得很大这样会导致我们在寻找局部最小点的时候，会在最优解的周围来回浮动，导致梯度下降算法运行过慢。
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。