机器学习基础篇-梯度优化方法2

最新推荐文章于 2023-09-11 08:56:34 发布

Mr.Wiggles

最新推荐文章于 2023-09-11 08:56:34 发布

阅读量152

点赞数

分类专栏：机器学习基础文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/Vihagle/article/details/118329670

版权

机器学习基础专栏收录该内容

31 篇文章 4 订阅

订阅专栏

动量梯度下降

Gradient Descent with Momentum

先上公式：
$\begin{aligned} &在每一个时刻t的mini-batch迭代中\\ &1)计算dW,db\\ &2)V_{dW} = \beta V_{dW}+(1-\beta)dW\\ &3)V_{db} = \beta V_{db}+(1-\beta)db\\ &4)W := W - \alpha V_{dW} \\ &5)b := b - \alpha V_{db} \end{aligned}$

在上面公式中展示的超参数由α（学习率）和β，在公式中，会引入动量的维度，V_dW是之前的历史梯度信息。如果我们设置β=0.9，这意味着我们要考虑最近 10 次迭代的梯度来更新参数。每一次梯度更新，都会考虑到上两次梯度更新的情况。

RMS-PROP

先上公式：
$\begin{aligned} &在每一个时刻t的mini-batch迭代中\\ &1)计算dW,db\\ &2)S_{dW} = \beta S_{dW}+(1-\beta)(dW)^2\\ &3)S_{db} = \beta S_{db}+(1-\beta)(db)^2\\ &4)W := W - \alpha \frac{dW}{\sqrt {S_{dW}}+\varepsilon} \\ &5)b := b - \alpha \frac{db}{\sqrt {S_{db}}+\varepsilon} \end{aligned}$
RMS-PROP会根据上一步梯度更新的情况，改变当前梯度更新的步子Step的大小

Adam ( Momentum + RMSprop )

先上公式：
$\begin{aligned} &V_{dw}^t = \beta_1V_{dw}^{t-1}+(1-\beta_1)dW^{t}\\ &V_{db}^t = \beta_1V_{db}^{t-1}+(1-\beta_1)db^{t}\\ &S_{dw}^t = \beta_2S_{dw}^{t-1} + (1-\beta_2)||dw^{t}||^2\\ &S_{db}^t = \beta_2S_{db}^{t-1} + (1-\beta_2)||db^{t}||^2\\ &V^{corrected}_{dw} = \frac{V_{dw}}{1-\beta_1^{t}}\\ &V^{corrected}_{db} = \frac{V_{db}}{1-\beta_1^{t}}\\ &S^{corrected}_{dw} = \frac{S_{dw}}{1-\beta_2^{t}}\\ &S^{corrected}_{db} = \frac{S_{db}}{1-\beta_2^{t}}\\ &W = w-\alpha\frac{V^{corrected}_{dw}}{\sqrt{S^{corrected}_{dw}}+\epsilon}\\ &b = b-\alpha\frac{V^{corrected}_{db}}{\sqrt{S^{corrected}_{db}}+\epsilon} \end{aligned}$

Adam会引入动量和方向这两个维度，根据上一步梯度更新的情况，改变当前梯度更新的步子Step的大小和步子变化方向V

Mr.Wiggles

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习基础篇-梯度优化方法2

动量梯度下降Gradient Descent with Momentum先上公式：在每一个时刻t的mini−batch迭代中1)计算dW,db2)VdW=βVdW+(1−β)dW3)Vdb=βVdb+(1−β)db4)W:=W−αVdW5)b:=b−αVdb\begin{aligned}&在每一个时刻t的mini-batch迭代中\\&1)计算dW,db\\&2)V_{dW} = \beta V_{dW}+(1-\beta)dW\\&3)V_{db} = \b
复制链接

扫一扫