动作定型之梯度下降优化方法

最新推荐文章于 2024-09-13 10:27:31 发布

TANGerrr

最新推荐文章于 2024-09-13 10:27:31 发布

阅读量223

点赞数

文章标签：深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tangerrr/article/details/109661760

版权

首先，梯度下降的作用求函数最小值问题。
梯度下降的原理就不多说了，求导，再将当前自变量参数（权重）减去导数一步一步即可求出函数最小值。
那么如何优化梯度下降，目的使梯度下降的速度增加呢？

答案：将普通梯度下降改为动量（momentum）梯度下降。
普通梯度下降的权重更新公式为：W = W - α * （dW）
动量梯度下降权重更新公式为：W = W - α * (V_dW)
明显两者的差别在于最后括号内容，dW都知道就是函数值对W的导数。
那么V_dW是什么呢：
公式： V_dW = β * V_dW + (1-β)dW
其中，β为动量因子，经前人实验经验得知最好另β = 0.9，当然你也可以取0-1其他数字，0.9是鲁棒性最好得数字。最开始的V_dW = 0。

事实上动量梯度下降就是在更新权重时将前者的梯度更新与本次的梯度更新结合起来，取代了普通梯度下降的只通过本次的数据来更新权重。通俗解释，当你知道前因的情况下，和你不知道前因的情况下进行梯度下降。

附两张唐‘加索’的真迹感受一下！
普通梯度下降图示：
在这里插入图片描述
动量梯度下降图示：
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201112231137398.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1RBTkdlcnJy,size_16,color_FFFFFF,t_70#pic_center

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。