深度学习的优化算法

最新推荐文章于 2024-07-10 22:17:05 发布

persist_gd

最新推荐文章于 2024-07-10 22:17:05 发布

阅读量217

点赞数

分类专栏：深度学习文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/m0_37712876/article/details/106964098

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

基本框架

定义当前时刻待优化参数 $\theta_t \in \mathbb R$ ，损失函数为 $J(\theta)$ ，学习率为 $\eta$ ，参数更新框架为：

1.计算损失函数关于当前参数的梯度： $g_t= \nabla J(\theta_t)$
2.根据历史梯度计算一阶动量和二阶动量：
$m_t=\phi(g_1,g_2,...,g_t),V_t=\psi(g_1,g_2,...,g_t)$

一阶动量：关于历史梯度的一阶函数
二阶动量：关于历史梯度的二阶函数

3.计算当前时刻的下降梯度：
$\Delta\theta_t=-\eta\frac{m_t}{\sqrt {V_t}}$
4.根据下降梯度更新参数： $\theta_{t+1}=\theta_t+\Delta\theta_t$

SGD

由于SGD没有动量概念，即没有考虑历史梯度，所以当前时刻的一阶动量即为当前时刻的梯度 $m_t=g_t$ ，且二阶动量 $V_t=E$ ，所以SGD的参数更新公式为
$\Delta\theta_t=-\eta\frac{g_t}{\sqrt E}=-\eta g_t\\ \theta_{t+1}=\theta_t+\Delta\theta_t=\theta_t-\eta g_t$

Momentum

移动指数加权平均值（Exponentially Weighted Moving Average,EWMA）
假设 $v_{t-1}$ 是 $t - 1$ 时刻的指数加权移动平均值， $\theta_t$ 是 $t$ 时刻的观测值，那么 $t$ 时刻的指数加权移动平均值为
$\begin{aligned} v_t&=\beta v_{t-1}+(1-\beta)\theta_t &\\ &=(1-\beta)\theta_t+\sum_{i=1}^{t-1}(1-\beta)\beta^i\theta_{t-i} \end{aligned}$
其中， $v_{t-1}$ 被原式递归替换， $\beta$ 为衰减率， $0\le \beta <1,v_0=0$ 。显然，由上式可知， $t$ 时刻的指数加权平均值其实可以看做前 $t$ 时刻所有观测值的指数加权平均值，除了第 $t$ 时刻的观测值权重为 $1-\beta$ 外，其它时刻观测值权重为 $(1-\beta)\beta^i$ （指数加权）。由于通常对于那些权重小于 $\frac{1}{e}$ 的观测值可以忽略不计 (移动窗口)，所以忽略掉那些观测值以后，上式子就可以看做在求指数加权移动平均值。

哪些项的权重会小于 $\frac{1}{e}$ 呢？由于
$lim_{n \rightarrow +\infty}(1-\frac{1}{n})^n=\frac{1}{e} \approx0.3679$
若令 $n=\frac{1}{1-\beta}$ ，则
$lim_{n \rightarrow +\infty}(1-\frac{1}{n})^n=lim_{n \rightarrow +\infty}(\beta)^{\frac{1}{1-\beta}}=\frac{1}{e} \approx0.3679$
所以，当 $\beta \rightarrow1$ 时，哪些 $\ge \frac{1}{1-\beta}$ 的 $\theta_{t-i}$ 的权重 $(1-\beta)\beta^i$ 一定小于 $\frac{1}{e}$ 。所以指数加权平均值可以近似看做在求最近 $\frac{1}{1-\beta}$ 个时刻的加权移动平均值， $\beta$ 常取 $\ge0.9$ 。
由于当 $t$ 较小时，指数加权移动平均值的偏差较大，通常会加上一个修正因子 $1-\beta^t$ ，加上修正因子后的公式为
$v_t=\frac{\beta v_t+(1-\beta)\theta_t}{1-\beta^t}$
显然，当 $t$ 很小时，修正因子 $1-\beta^t$ 会起到作用，当 $t$ 足够大时修正因子趋于1会自动退场。

SGD with Momentum
为了一直SGD的震荡，Momentum认为梯度下降过程可以加入惯性，也就是在SGD的基础上引入一阶动量。而所谓一阶动量就是该时刻梯度的指数加权移动平均值: $\eta m_t=\beta m_{t-1}+\eta g_t$ (其中 $g_t$ 并不严格按照指数加权移动平均值的定义采用权重 $1-\beta$ ，而是使用我们自定义的学习率 $\eta$ ，这是一种近似等价)。由于此时仍未使用二阶动量，所以 $V_t=E$ ,那么Momentum的参数更新公式为
$\Delta \theta_t=-\eta\frac{m_t}{\sqrt E}=-\eta m_t=-(\beta m_{t-1}+\eta g_t) \\ \theta_{t+1}=\theta_t-(\beta m_{t-1}+\eta g_t)$

NAG

除了利用惯性跳出局部沟壑以外，我们可以尝试往前看一步。我们知道momentum在时刻 $t$ 的主要下降方向是由历史梯度（惯性）决定的，当前时刻的梯度权重较小，那不如先看看如果跟着惯性走一步，那个时候外面的世界是怎么样的。也即在momentum的基础上将当前时刻的梯度 $g_t$ 换成下一时刻的梯度 $\nabla J(\theta_t-\beta m_{t-1})$ ，由于此时仍然没有用到二阶动量，所以 $V_t=E$ ，NAG的参数更新公式为
$\Delta \theta_t=-\eta \frac{m_t}{\sqrt E}=-\eta m_t=-(\beta m_{t-1}+\eta \nabla J(\theta_t-\beta m_{t-1}))\\ \theta_{t+1}=\theta_t-(\beta m_{t-1}+\eta \nabla J(\theta_t-\beta m_{t-1}))$

AdaGrad

此前我们都没有用到二阶动量。二阶动量的出现，才意味着“自适应学习率”优化算法时代的到来。SGD及其变种一同样的学习率更新每个维度的参数（因为 $\theta_t$ 通常是向量），但深度神经网络往往包含大量的参数，这些参数并不是总会用的到。对于经常更新的参数，我们已经积累了大量关于它的知识，不希望被单个样本影响太大，希望学习速率慢一些；对于偶尔更新的参数，我们了解的信息太少，希望能从每个偶然出现的样本身上多学一些，即学习速率大一些。因此，AdaGrad则考虑对于不同维度的参数采用不同的学习率。
具体的，对于那些更新幅度很大的参数，通常历史累计梯度的平方和会很大，相反的，对于那些更新幅度很小的参数，通常其累计历史梯度的平方和会很小。所以在一个固定学习率的基础上除以历史累计梯度的平方和就能够使的那些更新幅度很大的参数的学习率变小。同样的也能使得那些更新幅度很小的参数学习率变大，所以AdaGrad的参数更新公式为
$v_{t,i}=\sum_{t=1}^{t}g_{t,i}^2\\ \Delta\theta_{t,i}=-\frac{\eta}{\sqrt{v_{t,i}+\epsilon}}g_{t,i}\\ \theta_{t+1,i}=\theta_{t,i}-\frac{\eta}{\sqrt{v_{t,i}+\epsilon}}g_{t,i}$
其中 $g_{t,i}^2$ 表示第 $t$ 时刻第 $i$ 维度参数的梯度值， $\epsilon$ 是防止分母等于0的平滑项（常取一个很小的值 $1 e - 8$ ）。显然，此时上式中的 $\frac{\eta}{\sqrt{v_{t,i}+\epsilon}}$ 这个整体可以看做是学习率，分母中的历史累计梯度值 $v_{t,i}$ 越大的参数学习率越小。
上式仅仅是第 $t$ 时刻第 $i$ 维度参数的更新公式，对于第 $t$ 时刻的所有维度参数的整体更新公式为
$V_t=diag(v_{t,1},v_{t,2},...,v_{t,d}) \in \mathbb{R}^{d*d}\\ \Delta\theta_{t}=-\frac{\eta}{\sqrt{V_{t}+\epsilon}}g_{t}\\ \theta_{t+1}=\theta_{t,i}-\frac{\eta}{\sqrt{V_{t}+\epsilon}}g_{t}$
注意，由于 $V_t$ 是对角矩阵，所以上式中的 $\epsilon$ 只用来平滑 $V_t$ 对角线上的元素。
缺点：随着时间步数的拉长，历史累计梯度平方和 $v_{t,i}$ 会越来越大，这样会使得所有维度参数的学习率都不断减小（单调递减），无论更新幅度如何。

RMSProp/AdaDelta

由于AdaGrad单调递减的学习率变化过于激进，我们考虑一个改变二阶动量计算方法的策略：不累计全部历史梯度，而只关注过去一段时间窗口的下降梯度，采用momentum中的指数加权平均值的思路。这也就是AdaDelta名称中的Delta的来历。首先看最简单直接版的RMSProp，RMSProp就是在AdaDelta的基础上将普通的历史累计梯度平方和换成指数加权移动平均值，所以只需要将AdaGrad中的 $v_{t,i}$ 的公式改成指数加权移动平均值的形式
$v_{t,i}=\beta v_{t-1,i}+(1-\beta)g_{t,i}^2\\ V_t=diag(v_{t,1},v_{t,2},...,v_{t,d}) \in \mathbb{R}^{d*d}\\ \Delta\theta_{t}=-\frac{\eta}{\sqrt{V_{t}+\epsilon}}g_{t}\\ \theta_{t+1}=\theta_{t,i}-\frac{\eta}{\sqrt{V_{t}+\epsilon}}g_{t}$
而AdaDelta除了对二阶动量计算指数加权平均以外，还对当前时刻的下降梯度 $\Delta \theta_t$ 的平方也计算一个指数加权移动平均，具体的
$E[\Delta \theta^2]_{t,i}=\gamma E[\Delta \theta^2]_{t-1,i}+(1-\gamma)\Delta \theta_{t,i}^2$
由于 $\theta_{t,i}^2$ 目前是未知的，所以只能用 $t - 1$ 时刻的指数加权移动平均来近似替换，也即
$E[\Delta \theta^2]_{t-1,i}=\gamma E[\Delta \theta^2]_{t-2,i}+(1-\gamma)\Delta \theta_{t-1,i}^2$
除了计算出 $t - 1$ 时刻的指数加权移动平均以外，AdaDelta还用此值替换我们预先设置的学习率 $\eta$
因此，AdaDelta的参数更新公式为

$v_{t,i}=\beta v_{t-1,i}+(1-\beta)g_{t,i}^2\\ V_t=diag(v_{t,1},v_{t,2},...,v_{t,d}) \in \mathbb{R}^{d*d}\\ E[\Delta \theta^2]_{t,i}=\gamma E[\Delta \theta^2]_{t-1,i}+(1-\gamma)\Delta \theta_{t,i}^2\\ \Theta_t=diag(E[\Delta \theta^2]_{t-1,1},E[\Delta \theta^2]_{t-1,2,...,E[\Delta \theta^2]_{t-1,d}}) \in \mathbb {R}^{d*d}\\ \Delta\theta_{t}=-\frac{\sqrt{\Theta_t+\epsilon}}{\sqrt{V_{t}+\epsilon}}g_{t}\\ \theta_{t+1}=\theta_{t,i}-\frac{\sqrt{\Theta_t+\epsilon}}{\sqrt{V_{t}+\epsilon}}g_{t}$
显然，对于AdaDelta算法来说，已经不需要我们自己预设学习率了，只需要预设 $\beta$ 和 $\gamma$ 这两个指数加权移动平均值的衰减率即可。

Adam

Adam和Nadam是前述方法的集成者。我们看到，momentum在SGD基础上增加了一阶动量，AdaGrad在SGD基础上增加了二阶动量。把一阶动量和二阶动量都用起来，就是Adam
具体的，首先计算一阶动量： $m_t=\beta_1m_{t-1}+(1-\beta_1)g_t$
然后计算二阶动量
$v_{t,i}=\beta v_{t-1,i}+(1-\beta)g_{t,i}^2\\ V_t=diag(v_{t,1},v_{t,2},...,v_{t,d}) \in \mathbb{R}^{d*d}\\$
然后分别加上指数加权移动平均值的修正因子
$\hat m_t=\frac{m_t}{1-\beta_1^t}\\ \hat v_{t,i}=\frac{v_{t,i}}{1-\beta_2^t}\\ \hat V_t=diag(\hat v_{t,1},\hat v_{t,2},...,\hat v_{t,d}) \in \mathbb{R}^{d*d}\\$
所以，Adam的参数更新公式
$\Delta\theta_{t}=-\frac{\eta}{\sqrt{\hat V_{t}+\epsilon}}\hat m_{t}\\ \theta_{t+1}=\theta_{t}-\frac{\eta}{\sqrt{\hat V_{t}+\epsilon}}\hat m_{t}$

Nadam

基于Adam考虑未来因素
$\theta_{t+1}=\theta_{t}-\frac{\eta}{\sqrt{\hat V_{t}+\epsilon}}\hat m_{t}=\theta_{t}-\frac{\eta}{\sqrt{\hat V_{t}+\epsilon}}(\frac{\beta_1 m_{t-1}}{1-\beta_1^t}+\frac{(1-\beta_1)g_t}{1-\beta_1^t})$
此时，如果我们将 $t - 1$ 时刻的动量 $m_{t-1}$ 用 $t$ 时刻的动量 $m_t$ 近似替代的话，那么我们就引入了未来因素，所以将 $m_{t-1}$ 替换成 $m_t$ 即得到式子
$\theta_{t+1}=\theta_{t}-\frac{\eta}{\sqrt{\hat V_{t}+\epsilon}}(\frac{\beta_1 m_{t}}{1-\beta_1^t}+\frac{(1-\beta_1)g_t}{1-\beta_1^t})=\theta_{t}-\frac{\eta}{\sqrt{\hat V_{t}+\epsilon}}(\beta_1 \hat m_t+\frac{(1-\beta_1)g_t}{1-\beta_1^t})$

参考

datawhale串讲深度学习中的优化算法

persist_gd

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习的优化算法

基本框架定义当前时刻待优化参数θt∈R\theta_t \in \mathbb Rθt∈R，损失函数为J(θ)J(\theta)J(θ)，学习率为η\etaη，参数更新框架为：1.计算损失函数关于当前参数的梯度：gt=∇J(θt)g_t= \nabla J(\theta_t)gt=∇J(θt)2.根据历史梯度计算一阶动量和二阶动量：mt=ϕ(g1,g2,...,gt),Vt=ψ(g1,g2,...,gt)m_t=\phi(g_1,g_2,...,g_t),V_t=\psi(g_1,g_2,.
复制链接

扫一扫