神经网络5种优化器

最新推荐文章于 2024-03-31 06:52:24 发布

Water-drop-conquer

最新推荐文章于 2024-03-31 06:52:24 发布

阅读量1.3k

点赞数 3

本文链接：https://blog.csdn.net/weixin_42863507/article/details/106169386

版权

待优化参数 $w$ ，损失函数 $l o s s$ ，学习率 $l r$ ，每次迭代一个batch， $t$ 表示当前batch迭代的总次数

计算t时刻损失函数关于当前参数的梯度 $g_t=▽loss=\frac{\partial loss}{\partial w_t}$
计算t时刻一阶动量 $m_t$ 和二阶动量 $V_t$
计算t时刻下降梯度： $η_t=lr·m_t/\sqrt V_t$
计算t+1时刻参数： $w_{t+1}=w_t-η_t=w_t-lr·m_t/\sqrt V_t$

一阶动量：与梯度相关的函数
二阶动量：与梯度平方相关的函数

5种优化器

1. SGD (无动量)：随机梯度下降

$m_t=g_t\ \ \ \ V_t=1$
$η_t=lr·m_t/\sqrt V_t=lr·g_t$
$w_{t+1}=w_t-η_t=w_t-lr·m_t/\sqrt V_t=w_t-lr·g_t$

$\ \ \ \ \ \ =w_t-lr·\frac{\partial loss}{\partial w_t}$

2. SGDM（含动量的SGD），在SGD基础上增加一阶动量

$m_t=\beta·m_{t-1}+(1-\beta)·g_t \ \ \ \ \ V_t=1$
$η_t=lr·m_t/\sqrt V_t=lr·m_t$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =lr·(\beta·m_{t-1}+(1-\beta)·g_t)$
$w_{t+1}=w_t-η_t$
$\ \ \ \ \ \ =w_t-lr·(\beta·m_{t-1}+(1-\beta)·g_t)$

3. Adagrad, 在SGD基础上增加二阶动量

$m_t=g_t \ \ \ \ V_t=\sum_{\tau=1}^tg^2$
$η_t=lr·m_t/(\sqrt V_t)$
$\ \ \ \ =lr·g_t/(\sqrt{\sum_{\tau=1}^tg^2_t)}$
$w_{t+1}=w_t-\eta_t$
$\ \ \ \ \ \ \ \ \ =w_t-lr·g_t/(\sqrt{\sum_{\tau=1}^tg^2_t)}$

4. RMSProp, SGD基础上增加二阶动量

$m_t=g_t\ \ \ \ V_t=\beta\cdot V_{t-1}+(1-\beta)\cdot g^2_t$
$\eta=lr\cdot m_t / {\sqrt V_t}$
$\ \ \ \ \ =lr\cdot g_t / (\sqrt{\beta\cdot V_{t-1}+(1-\beta)\cdot g^2_t})$
$w_{t+1}=w_t-\eta$
$\ \ \ \ \ \ = w_t-lr\cdot g_t / (\sqrt{\beta\cdot V_{t-1}+(1-\beta)\cdot g^2_t})$

5. Adam, 同时结合SGDM一阶动量和RMSProp二阶动量

$m_t=\beta \cdot m_{t-1}+(1-\beta)\cdot g_t$
修正一阶动量的偏差： $\widehat{m_t}=\frac{m_t}{1-\beta^t_1}$
$V_t = \beta_2 \cdot V_{step-1}+(1-\beta_2)\cdot g^2_t$
修正二阶动量的偏差： $\widehat{V_t}=\frac{V_t}{1-\beta^2_t}$
$\eta_t=lr\cdot \widehat{m_t} / \sqrt{\widehat{V_t}}$
$\ \ \ \ = lr\cdot \frac{m_t}{1-\beta^t_1} / \sqrt{\frac{V_t}{1-\beta^t_2}}$

$w_{t+1}=w_t-\eta_t$
$\ \ \ \ =w_t-lr\cdot \frac{m_t}{1-\beta^t_1} / \sqrt{\frac{V_t}{1-\beta^t_2}}$

笔记内容来源于视频：人工智能实践：Tensorflow笔记

Water-drop-conquer

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
神经网络5种优化器

待优化参数w，损失函数loss，学习率lr，每次迭代一个batch，t表示当前batch迭代的总次数计算t时刻损失函数关于当前参数的梯度gt=▽loss=∂loss∂wtg_t=▽loss=\frac{\partial loss}{\partial w_t}gt=▽loss=∂wt∂loss计算t时刻一阶动量mtm_tmt和二阶动量VtV_tVt计算t时刻下降梯度：η=lr⋅mt/Vtη=lr·m_t/\sqrt V_tη=lr⋅mt/Vt计算t+1时刻参数：wt+1=wt−ηt=
复制链接

扫一扫