梯度下降优化算法综述,梯度下降法神经网络

最新推荐文章于 2024-06-12 09:11:00 发布

快乐的小荣荣

最新推荐文章于 2024-06-12 09:11:00 发布

阅读量1.8k

点赞数 2

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Supermen333/article/details/126522302

版权

梯度下降法是什么？

梯度下降法（英语：Gradientdescent）是一个一阶最优化算法，通常也称为最陡下降法。

要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。

如果相反地向梯度正方向迭代进行搜索，则会接近函数的局部极大值点；这个过程则被称为梯度上升法。梯度下降一般归功于柯西，他在1847年首次提出它。Hadamard在1907年独立提出了类似的方法。

HaskellCurry在1944年首先研究了它对非线性优化问题的收敛性，随着该方法在接下来的几十年中得到越来越多的研究和使用，通常也称为最速下降。

梯度下降适用于任意维数的空间，甚至是无限维的空间。在后一种情况下，搜索空间通常是一个函数空间，并且计算要最小化的函数的Fréchet导数以确定下降方向。

梯度下降适用于任意数量的维度（至少是有限数量）可以看作是柯西-施瓦茨不等式的结果。那篇文章证明了任意维度的两个向量的内（点）积的大小在它们共线时最大化。

在梯度下降的情况下，当自变量调整的向量与偏导数的梯度向量成正比时。

修改为了打破梯度下降的锯齿形模式，动量或重球方法使用动量项，类似于重球在被最小化的函数值的表面上滑动，或牛顿动力学中的质量运动在保守力场中通过粘性介质。

具有动量的梯度下降记住每次迭代时的解更新，并将下一次更新确定为梯度和前一次更新的线性组合。对于无约束二次极小化，重球法的理论收敛速度界与最优共轭梯度法的理论收敛速度界渐近相同。

该技术用于随机梯度下降，并作为用于训练人工神经网络的反向传播算法的扩展。

谷歌人工智能写作项目：神经网络伪原创<

最低0.47元/天解锁文章

快乐的小荣荣

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
梯度下降优化算法综述,梯度下降法神经网络

梯度方向是，步长设为常数Δ，这时就会发现，如果用在梯度较大的时候，离最优解比较远，W的更新比较快；在这儿，我们再作个形象的类比，如果把这个走法类比为力，那么完整的三要素就是步长（走多少）、方向、出发点，这样形象的比喻，让我们对梯度问题的解决豁然开朗，出发点很重要，是初始化时重点要考虑的，而方向、步长就是关键。所以，既然在远离最优解的时候梯度大，在靠近最优解的时候梯度小，我们让步长随着这个律动，于是我我们就用λ|W|来代替Δ，最后得到了我们熟悉的式子：所以说这时的λ是随着坡度的陡缓而变化的，别看它是个常数。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。