梯度检验与高级优化笔记

最新推荐文章于 2024-01-17 15:37:20 发布

AlmostFree

最新推荐文章于 2024-01-17 15:37:20 发布

阅读量667

点赞数

分类专栏： Machine Learning 文章标签：优化

本文链接：https://blog.csdn.net/u013508213/article/details/52484732

版权

Machine Learning 专栏收录该内容

31 篇文章 0 订阅

订阅专栏

梯度检验
- 单个实数
- 向量情况
高级优化

梯度检验

反向传播算法很难调试得到正确结果，但却会得到一个看起来很合理的结果。
比如段位错误（Off-by-one error）。例子是for循环中循环 $m$ 次，正确应该是 $for (i=1;~i<=m;~i++)$ ，有时会写成 $for (i=1;~i<m;~i++)$ ，这就是缺位错误。再有是忘记计算偏置项。
这节课介绍了一种对求导结果进行数值检验的方法，这种方法可以验证求导代码是否正确。

单个实数

假设我们想要最小化以 $\theta$ 为自变量的目标函数 $J(\theta)$ 。假设 $J : \mathbb{R} \mapsto \mathbb{R}$ ，则 $\theta \in \mathbb{R}$ 。在一维的情况下，一次迭代的梯度下降公式是 $\theta := \theta - \alpha \frac{d}{d\theta}J(\theta)$
再假设我们已经用代码实现了计算 $\frac{d}{d\theta}J(\theta)$ 的函数 $g(\theta)$ ，接着我们使用 $\theta := \theta - \alpha g(\theta)$ 来实现梯度下降算法。
可以用以下数值检验公式计算两端是否一样来检验 $g$ 是否正确：
$g(\theta) \approx \frac{J(\theta+{\rm EPSILON}) - J(\theta-{\rm EPSILON})}{2 \times {\rm EPSILON}}$
实际应用中，我们常将 $EPSILON$ 设为一个很小的常量，比如在 $10^{-4}$ 数量级。

向量情况

考虑 $\theta \in \mathbb{R}^n$ 是一个向量而非一个实数，并且 $J: \mathbb{R}^n \mapsto \mathbb{R}$ 。现在将求导检验方法推广到一般化，即 $\theta$ 是一个向量的情况。

假设我们有一个用于计算 $\frac{\partial}{\partial \theta_i} J(\theta)$ 的函数 $g_i(\theta)$ ；我们想要检验 $g_i$ 是否输出正确的求导结果。
定义：
$\theta^{(i+)} = \theta + {\rm EPSILON} \times \vec{e}_i$
$\theta^{(i-)} = \theta - {\rm EPSILON} \times \vec{e}_i$

其中 $\vec{e}_i = \begin{bmatrix}0 \\ 0 \\ \vdots \\ 1 \\ \vdots \\ 0\end{bmatrix}$ 是第 $i$ 个基向量（维度和 $\theta$ 相同，在第 $i$ 行是“1”而其他行是“0”）。
然后我们可以对每个 $i$ 检查下式是否成立，进而验证 $g_i(\theta)$ 的正确性： $g_i(\theta) \approx \frac{J(\theta^{(i+)}) - J(\theta^{(i-)})}{2 \times {\rm EPSILON}}$

高级优化

目前为止，学习的都是使用梯度下降来最小化 $J(\theta)$ 。
第一种方法：使用梯度下降，并能够自动调整学习速率 $\alpha$ ，以得到合适的步长值，最终使 $\theta$ 能够快速收敛到一个局部最优解。

更精妙的方法：可以寻找一个Hessian矩阵的近似，得到最佳步长值，使用该步长值能够更快地收敛到局部最优（和牛顿法类似）。比如L-BFGS算法。

AlmostFree

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度检验与高级优化笔记

梯度检验单个实数向量情况高级优化梯度检验反向传播算法很难调试得到正确结果，但却会得到一个看起来很合理的结果。比如段位错误（Off-by-one error）。例子是for循环中循环mm次，正确应该是for(i=1; i<=m; i++)for (i=1;~i<=m;~i++)，有时会写成for(i=1; i<m; i++)for (i=1;~i<m;~i++)，这就是缺位错误。再有是忘记
复制链接

扫一扫

专栏目录