计算机视觉的深度学习 Lecture4:Regularization + Optimization 笔记 EECS 498.008

爱学习的图灵机

于 2023-05-13 12:47:10 发布

阅读量553

点赞数

分类专栏：计算机视觉深度学习文章标签：深度学习计算机视觉笔记

本文链接：https://blog.csdn.net/AKAPinkman/article/details/130656174

版权

深度学习同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

计算机视觉

5 篇文章 0 订阅

订阅专栏

课件非常好！

数值计算梯度

问题是慢，每个都要注意做步长，求除法。

应该用求导方法解决。

SGD通过每次抽取一部分（mini-batch）来计算梯度，而不是遍历整个数据集来求梯度，大大增大了求梯度速度，并且性能不怎么受影响。
在GPU内存范围内，应尽可能扩大mini-batch大小。

概率视角：通过随机抽样mini-batch求出的梯度，在期望上等于用全部样本计算的梯度。

todo：
Multiclass SVM optimization demo (stanford.edu) 看明白这里面其中一步的计算：

下面这个图从上到下正视图、等高线图，也就是垂直方向梯度变化大，水平方向梯度变换缓

二维梯度计算代价大，实际上不怎么用（二维海参矩阵是 $n * n$ 的，并且求逆(invert) $O(n^3)$ ）

可能不太精准、形象的理解：
动量下降让下降不那么摇摆，但是容易冲过头然后回来；
Nesterov看下一步的走向，动量下降看当前走向，区别不大；
AdaGrad在梯度大时步子变小，梯度小时步子变大。问题是一直训练除的系数grad_squared变得很大，走到一半就停了；
RMSProp是加权的AdaGrad，限制了grad_squared的大小；
Adam结合了上述方法，并抑制了一开始的巨大变化。

Adam with beta1 = 0.9,
beta2 = 0.999, and learning_rate = 1e-3, 5e-4, 1e-4
is a great starting point for many models!

证明上面两个式子相等：
我们首先考虑第一个更新式子（取负梯度）：

$v_{t+1} = \rho v_t - \alpha g_t$
$x_{t+1} = x_t + v_{t+1}$

我们需要递归地展开 $v_{t+1}$ 项。为了方便表示，我们将梯度项 $g_t$ 表示为 $g_1, g_2, \dots, g_t$ 。现在我们来展开 $v_{t+1}$ ：

$v_2 = -\alpha g_1$
$v_3 = \rho (-\alpha g_1) - \alpha g_2 = -\alpha (\rho g_1 + g_2)$
$v_4 = \rho(-\alpha (\rho g_1 + g_2)) - \alpha g_3 = -\alpha (\rho^2 g_1 + \rho g_2 + g_3)$

以此类推，我们可以得到：

$v_{t+1} = -\alpha (\rho^{t-1} g_1 + \rho^{t-2} g_2 + \dots + \rho g_{t-1} + g_t)$

接下来，我们将 $v_{t+1}$ 代入第二个更新式子：

$x_{t+1} = x_t + v_{t+1} = x_t - \alpha (\rho^{t-1} g_1 + \rho^{t-2} g_2 + \dots + \rho g_{t-1} + g_t)$

现在我们考虑第二个更新式子（取正梯度）：

$v_{t+1} = \rho v_t + g_t$
$x_{t+1} = x_t - \alpha v_{t+1}$

我们同样需要递归地展开 $v_{t+1}$ 项：

$v_2 = g_1$
$v_3 = \rho g_1 + g_2$
$v_4 = \rho (\rho g_1 + g_2) + g_3 = \rho^2 g_1 + \rho g_2 + g_3$

以此类推，我们可以得到：

$v_{t+1} = \rho^{t-1} g_1 + \rho^{t-2} g_2 + \dots + \rho g_{t-1} + g_t$

接下来，我们将 $v_{t+1}$ 代入第二个更新式子：

$x_{t+1} = x_t - \alpha v_{t+1} = x_t - \alpha (\rho^{t-1} g_1 + \rho^{t-2} g_2 + \dots + \rho g_{t-1} + g_t)$

现在我们可以看到，两个更新式子在数学上是等价的。

注意这个等价是全过程等价，如果只挑选其中一步是不同的。例如不能直接把这两个式子代换得到相同结果。

爱学习的图灵机

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉的深度学习 Lecture4:Regularization + Optimization 笔记 EECS 498.008

SGD通过每次抽取一部分（mini-batch）来计算梯度，而不是遍历整个数据集来求梯度，大大增大了求梯度速度，并且性能不怎么受影响。AdaGrad在梯度大时步子变小，梯度小时步子变大。注意这个等价是全过程等价，如果只挑选其中一步是不同的。概率视角：通过随机抽样mini-batch求出的梯度，在期望上等于用全部样本计算的梯度。Nesterov看下一步的走向，动量下降看当前走向，区别不大；、等高线图，也就是垂直方向梯度变化大，水平方向梯度变换缓。现在我们可以看到，两个更新式子在数学上是等价的。
复制链接

扫一扫