2021-05-09

最新推荐文章于 2022-03-11 15:51:27 发布

中北编程底线

最新推荐文章于 2022-03-11 15:51:27 发布

阅读量110

点赞数 1

本文链接：https://blog.csdn.net/qq_53174708/article/details/116546914

版权

多元梯度下降法——特征缩放

如果你有一个机器学习问题，这个问题有多个特征值，设想一下你的特征值分布，无疑当你的特征值分布特别广的时候，会严重影响你梯度下降收敛的速度，例如房价问题中，第一个特征值是房子面积（0~2000），第二个特征值是卧室数量（0 ~5），设想一下，这会让代价函数的平面图严重畸形，横向已经到了最优解的时候，纵向几乎还没开始下降，类似于下面这种：
在这里插入图片描述

所以，为了速度问题，有特征缩放的方法。方法简单，就是用该特征值的每一个数除以最大的特征值，这样使得每个新特征值都能保持在
（-1 ~1）之间。这样对应的两个特征值就能在一个数量级上。
在特征缩放中，除了特征值除以最大值以外，还有均值化归一
在这里插入图片描述
与除以最大值类似，不同点在于与坐标轴上的平移坐标类似。具体环境具体用法。

多元梯度下降法——学习率

在这里插入图片描述
如图，学习率就是图中的α，

在上图中，横轴代表迭代次数，纵轴代表代价函数，可以看到，在大约300到400次的时候，基本可以认为代价函数取得最优解。对于每一个不同的问题，所需要的迭代次数也是不一样的，30，300，3000，30000…为了检测迭代是否完成，可以添加一个自动收敛测试，当代价函数每次下降的梯度小于一个阈值时，便停止迭代，但阈值的选择还是有一定难度的，你很难选择一个恰当的值，所以在看函数曲线和自动收敛测试你可以有一个选择。
此外，通过函数图像还可以告诉你梯度下降算法有没有正常运行。比如下面的这两种情况都是由学习率过大引起的。
在这里插入图片描述
这种时候你就应该选择更小的学习率，虽然这会增加时间。
同常，我们用的学习率为…0.01，0.03，0.1，0.3…

中北编程底线

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-05-09

多元梯度下降法——特征缩放如果你有一个机器学习问题，这个问题有多个特征值，设想一下你的特征值分布，无疑当你的特征值分布特别广的时候，会严重影响你梯度下降收敛的速度，例如房价问题中，第一个特征值是房子面积（0~2000），第二个特征值是卧室数量（0 ~5），设想一下，这会让代价函数的平面图严重畸形，横向已经到了最优解的时候，纵向几乎还没开始下降，类似于下面这种：所以，为了速度问题，有特征缩放的方法。方法简单，就是用该特征值的每一个数除以最大的特征值，这样使得每个新特征值都能保持在（-1 ~1）之间。这
复制链接

扫一扫