优化器optimizer

换个名字就很好

已于 2022-01-31 15:03:03 修改

阅读量1.2k

点赞数

分类专栏：深度学习基础文章标签：机器学习深度学习

于 2022-01-25 20:00:05 首次发布

本文链接：https://blog.csdn.net/AliceH1226/article/details/122685679

版权

深度学习基础专栏收录该内容

9 篇文章 0 订阅

订阅专栏

GD

$\theta_t=\theta_{t-1}-\alpha\ \frac{\partial Loss}{\partial \theta_{t-1}}$
有三种，sgd,bgd,mini-batch gd,s,b, gd分别指stochastic, batch, gradient descent。区别分别是每一步计算一项，一小批，全部数据。在实现的时候，dataloader的batchsize分别是1，num_mini_batch, len(data)。

Exponentially Weighted (Moving) Average

$\theta_i$ 表示第 $i$ 天温度, $\beta$ 是超参数设为0.9, $v_i$ 表示第 $i$ 天以及前面的 $1/(1-\beta)-1$ 天的一共 $1/(1-\beta)$ 天的指数加权移动平均(exponentially weighted moving average)，简称关于 $\theta_i$ 的移动平均数(moving average), 设 $v_0$ =0, 那么有：
$v_0=0$
$v_1 = 0.9v_0+0.1\theta_1$
…
$v_t = 0.9v_{t-1}+0.1\theta_t$
$\beta$ 分别取0.9,0.98,0.5分别表示10天，50天，2天的移动平均温度。
$\beta$ 取值过大，表示更多天的移动平均温度，拟合出来的线比真实的线有延迟，因为惯性太大。
过小表示更少天数的移动平均温度，拟合出来的线是锯齿状的，存在噪声，很不平滑，因为由过少的天数的温度决定，受局部的几天的温度影响很大，所以不稳定。
$v_{100}=0.1\theta_{100}+0.9v_{99}=0.1\theta_{100}+0.1*0.9\theta_{99}+0.1*0.9^2\theta_{98}+...+0.1*0.9^{9}\theta_{91}$
指数加权体现在每一个 $\theta$ 前都有一个关于 $\beta$ 的指数的系数，比如上面的 $v_{100}$ ,每一个 $\theta$ 前都有一个关于0.9的指数的系数。

Bias Correction

由于一开始设定的 $v_0$ 为0，导致初始阶段的v都很小，要迭代一段时间(warm up)后才能拟合的好。
偏差修正(bias correction)可以解决这个问题:
$v_t^{corr} = \frac{v_t}{1-\beta^t}$
一开始 $t$ 小， $\beta^t$ 大，分母小，v_t^corr大, 解决一开始 $v_t$ 小的问题
后面 $t$ 大， $\beta^t$ 接近0， $v_t$ 接近 $v_t^{corr}$ ，解释了warm up 后不需要校正的现象。

Gradient Descent with Momentum

on iter $t$ :
compute $d w$ , $d b$ on current mini-batch
$V_{dw}=\beta V_{dw} + (1-\beta)dw \ (1)$
$V_{db}=\beta V_{db}+(1-\beta)db \ (2)$
$w=w-\alpha V_{dw} \ (3)$
$b=b-\alpha V_{db} \ (4)$
(1),(2)是momentum, (3),(4)是gd。 $V_{dw}$ 是关于 $d w$ 的指数加权移动平均。
momentum使得gd的过程更稳定，loss曲线更平滑，减少噪声。
$\beta$ 取0.9，通常不使用偏差修正(bias correction),因为epoch的个数足够，一开始的欠拟合不影响最终的结果。
$V_{dw}=0$ ，矩阵，和w的形状一样。
$V_{db}=0$ ，向量，和b的形状一样。
对于(1),(2)，有人会去掉 $(1-\beta)$ ,去没去掉都work，推荐保留。

Gradient Descent with RMSProp

Momentum可以加快梯度下降的过程，RMSProp也可以。举例来说，假设水平方向是最快到达loss最低点的，但是由于竖直方向的梯度太大，水平方向的梯度太小，会导致竖直方向的步伐太大，水平方向的步伐太小，导致很慢到达loss最低点，RMSProp可以避免这种情况：
on iter t:
$S_{dw}=\beta S_{dw}+(1-\beta) (dw)^2 \ (1)$
$S_{db}=\beta S_{db}+(1-\beta)(db)^2 \ (2)$
$w=w-\alpha \frac{dw}{\sqrt {S_{dw}}+\epsilon} \ (3)$
$b=b-\alpha \frac{db}{\sqrt {S_{db}}+\epsilon} \ (4)$
(1), (2)是关于 $dw)^2$ 的移动平均。
(3), (4)是在梯度下降的基础上，将导数除以了一个移动平均的开方。
当某个梯度很大，比如 $d w$ 很大，则 $S_{dw}$ 很大，那么 $\alpha \frac{dw}{\sqrt {S_{dw}}+\epsilon}$ 就小，避免因为 $d w$ 很大导致这个方向的步伐过大使得收敛变慢。
当某个梯度很小，比如 $d b$ 很小，则 $S_{db}$ 很大，那么 $\alpha \frac{db}{\sqrt {S_{db}}+\epsilon}$ 变大，避免因为 $d b$ 很小导致这个方向的步伐过小使得收敛变慢。

Adam

Adam是momentum 和RMSProp的结合：
$V_{dw}=0$ , $V_{db}=0$
$S_{dw}=0$ , $S_{db}=0$
on iter t:
compute $d w$ , $d b$ on current mini-batch
$V_{dw}=\beta_1 V_{dw}+(1-\beta_1)dw$
$V_{db}=\beta_1 V_{db}+(1-\beta_1)db$
$S_{dw}=\beta_2 S_{dw} + (1-\beta_2)(dw)^2$
$S_{db}=\beta_2 S_{db}+(1-\beta_2)(db)^2$
$V_{dw}^{corr}=\frac{V_{dw}}{1-\beta_1^t}$
$V_{db}^{corr}=\frac{V_{db}}{1-\beta_1^t}$
$S_{dw}^{corr}=\frac{S_{dw}}{1-\beta_2^t}$
$S_{db}^{corr}=\frac{S_{db}}{1-\beta_2^t}$
$w=w-\alpha \frac{V_{dw}^{corr}}{\sqrt{S_{dw}^{corr}}+\epsilon}$
$b=b-\alpha \frac{V_{db}^{corr}}{\sqrt{S_{db}^{corr}}+\epsilon}$
$\alpha:$ 自己设定
$\beta_1:$ 0.9 first moment
$\beta_2:$ 0.999 second monent
$\epsilon:10^{-8}$
Adam：Adaptive moment estimate

Ref

吴恩达老师的视频

换个名字就很好

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
优化器optimizer

GDθt=θt−1−α ∂Loss∂θ\theta_t=\theta_{t-1}-\alpha\ \frac{\partial Loss}{\partial \theta}θt=θt−1−α ∂θ∂Loss有三种，sgd,bgd,mini-batch gd,s,b, gd分别指stochastic, batch, gradient descent。区别分别是每一步计算一项，一小批，全部数据。在实现的时候，dataloader的batchsize分别是1，num_mini_bat
复制链接

扫一扫

专栏目录