9月30日计算机视觉基础学习笔记——优化算法

最新推荐文章于 2023-11-20 16:10:30 发布

Ashen_0nee

最新推荐文章于 2023-11-20 16:10:30 发布

阅读量811

点赞数

文章标签：算法计算机视觉学习

本文链接：https://blog.csdn.net/Ashen_0nee/article/details/127130103

版权

前言

本文为9月30日计算机视觉基础学习笔记——优化算法，分为四个章节：

Batch gradient descent:
$\theta = \theta - \eta \cdot \bigtriangledown _{\theta }J(\theta )\\ \theta_{t+1} = \theta_t + \bigtriangleup \theta _t$
其中， $\theta$ 是权重和偏置， $J$ 是损失函数。

Stochastic gradient descent: 学习率会衰减：
$\theta = \theta - \eta \cdot \bigtriangledown _{\theta }J(\theta, x^{(i)}, y^{(i)} )\\ \bigtriangleup \theta _t = \eta \cdot g_{t, i}\\ \theta_{t+1} = \theta_t + \bigtriangleup \theta _t$

都是凸函数的情况下，SGD 波动大，可能使梯度下降到更好的另一个局部最优解，但可能导致梯度一直在局部最优解附近波动。

$\theta = \theta - \eta \cdot \bigtriangledown _{\theta }J(\theta, x^{(i:i+n)}, y^{(i:i+n)} ) \quad batch\ size = n$

相对于 SGD 可减小参数更新的波动。

Momentum:
$v_t = \gamma v_{t-1} + \eta \cdot \bigtriangledown _{\theta }J(\theta )\\ \theta = \theta - v_t$

$\gamma$ 通常为 0.9。

Nesterov Accelerated Gradient:
$v_t = \gamma v_{t-1} + \eta \cdot \bigtriangledown _{\theta }J(\theta - \gamma v_{t-1} )\\ \theta = \theta -v_t\\ \bigtriangleup \theta_t = -\eta \cdot g_{t, i}\\ \theta _{t+1} = \theta _t + \bigtriangleup \theta _t$
与 momentum 的区别：计算梯度不同。NAG 先用当前的速度 v 更新一遍参数，再用更新的临时参数计算 loss，然后计算梯度。

Adaptive grad:
$\frac{\partial L}{\partial \textbf{W} } \odot \frac{\partial L}{\partial \textbf{W} }\\ \textbf{W} → \textbf{W} - \eta \cdot \frac{1}{\sqrt{h} } \cdot \frac{\partial L}{\partial \textbf{W} }\\ \theta _{t+1, i} = \theta _{t, i} - \frac{\eta }{\sqrt{G_{t, ii}} + \epsilon} \cdot g_{t, i}$
缺点：随着训练次数增加，h 越来越大，训练步长越来越小，模型还未收敛，参数就不更新了。
Root Mean Square Propagation:
$E[g^2]_t = \gamma E[g^2]_{t-1} + (1-\gamma)g_t^2\\ \bigtriangleup \theta _t = - \frac{\eta }{E[g^2] + \epsilon } g_t$
Ada-delta:
$E[\bigtriangleup \theta ^2]_t = \eta E[\bigtriangleup \theta ^2]_{t-1} + (1-\gamma )\bigtriangleup \theta _t^2\\ RMS[\bigtriangleup \theta ]_t = \sqrt{E[\bigtriangleup \theta^2 ]_t + \epsilon } \\ \bigtriangleup \theta _t = -\frac{RME[\bigtriangleup \theta ]_t}{RME[g]_t} g_t$

Adaptive Moment Estimation:
$m_t = \beta_1 m_{t-1} + (1-\beta_1)g_t\\ v_t = \beta_2 v_{t-1} + (1-\beta_2)g_t^2\\ \hat{m}_t = \frac{m_t}{1-\beta_1^t}\\ \hat{v}_t = \frac{v_t}{1-\beta_2^t}\\ \theta_{t+1} = \theta_t - \frac{\eta }{\sqrt{\hat{v}_t }+\epsilon }\hat{m}_t$
- m 用来稳定梯度：来自 momentum；
- v 使梯度自适应化：来自 RMSProp.