梯度下降法

最新推荐文章于 2022-05-04 23:20:53 发布

库柏

最新推荐文章于 2022-05-04 23:20:53 发布

阅读量720

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36420612/article/details/81974541

版权

本文介绍了梯度下降法的基本原理，强调了初始值选择和步长设定的重要性。讨论了鞍点问题和局部最小值对优化的影响，并提到了基于动量的梯度更新算法作为克服局部最优的策略。还对比了批量梯度下降和随机梯度下降法的优缺点，指出随机梯度下降法虽然计算简单，但可能造成收敛速度变慢。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降法原理

梯度下降法又叫盲人下山法，沿着最陡峭的地方，下降最快。
直观的理解，在自变量的极小阈内，导数大于0，函数递增。导数小于0，函数递减。所以沿着梯度的方向函数增加最快。沿着梯度的负方向，函数降低最快。
由泰勒公式的一阶展开式得到：
这里写图片描述

梯度的初始值

初始值一般设定为0。神经网络中，一般设定为随机值（防止由于网络的对称性，造成参数更新的对称性）。

步长的设定

步长一般设定为一个接近于0的很小的正数。如0.001，0.0001等。也可以设置为动态值，如用退火算法的思想，设置为1/(t+1)等，其中t是迭代次数。刚开始距最优点较远，步长较大。随着迭代次数的增加，接近最优点时，步长逐渐变小。

鞍点问题和局部最小值问题

对于强凸问题，即只有一个最优解时，算法一定收敛到最优解。但是当问题包含多个局部最优解时，算法不一定收敛到全局最优解。鞍点即梯度为0的点，但并不是极值点。
这里写图片描述
这里介绍一种基于动量的梯度更新算法。即梯度不仅取决于当前值，还要取决于历史值。图中可以看出这种方法ÿ

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。