机器学习初步（五）：梯度下降分析

最新推荐文章于 2023-03-14 16:59:38 发布

hesitate002

最新推荐文章于 2023-03-14 16:59:38 发布

阅读量459

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/M_on_ster_/article/details/127326363

版权

梯度下降作为常见的参数优化方式，更好的实现梯度下降可以得到更好的结果

学习率的设计

在梯度下降过程中，学习率的大小非常影响模型的训练效果与效率。如图：
在这里插入图片描述

学习率过小，参数迭代速度很慢，虽然用足够的时间训练之后，也可以得到最优解，但是时间成本太大，参照蓝色线；
学习率过大，经过一段时间迭代后，最终可能在最优解左右反复横跳，参照绿色线；
学习率太大，效果更差，参照黄色线；

只有学习率选择恰当，才能高效的得到最优解。

自适应学习率

想法比较简单和朴素：
$\eta_{t+1}=\frac{\eta_{t}}{\sqrt{t+1}}$
t为迭代次数，随着迭代次数增加，理论上离最优解越来越近，因此学习率随之减少。
但是不同的参数应当具有不同的学习率，因此这种方法还是比较局限的。

Adagrad算法

解释：每个参数的学习率都把他除以之前微分的均方根。
在这里插入图片描述
将Adagrad的式子化简：

随机梯度下降

一般的梯度下降：

损失函数包含每一个数据样本；
随机梯度下降：

特征缩放

想象如果两个变量的值得差异非常大：
在这里插入图片描述
很明显， $w_{1}$ 的变化对y的影响远小于 $w_{2}$ 。

如果是左边的情况，就会出现梯度下降时走了很多弯路，而右边的情况，无论是从哪个方向开始梯度下降，迭代次数都是差不多的，无疑是更好的选择。

参数缩放的常见方法

在这里插入图片描述
相当于是让每一种参数都落在正态分布。

注

文内相关图片均截图自datawhale组织的开源文档。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习初步（五）：梯度下降分析

对梯度下降的具体实现进行细节优化
复制链接

扫一扫

hesitate002 CSDN认证博客专家 CSDN认证企业博客

码龄3年

9: 原创

142万+: 周排名

13万+: 总排名

2309: 访问

: 等级

112: 积分

6: 粉丝

5: 获赞

2: 评论

6: 收藏

私信

关注

热门文章

最新评论

字符串最长相等前后缀计算
CSDN-Ada助手: 恭喜您写了第7篇博客！标题《字符串最长相等前后缀计算》听起来非常有深度和技术含量。您对这个主题进行了深入的研究和探讨，让读者能够更好地理解字符串处理中的一种重要技巧。我对您的持续创作精神表示敬佩。在下一步的创作中，我希望能看到更多实际案例或应用场景的分享。通过将理论知识与实际应用相结合，读者能够更好地理解和应用您所讲述的内容。同时，我也期待能够看到更多关于其他字符串处理技巧的文章，让我们能够进一步拓宽知识面。再次恭喜您的创作成果，期待您的下一篇博客！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。