[深度学习-2.5] 梯度检验

最新推荐文章于 2022-06-27 20:33:36 发布

Lucky_Go

最新推荐文章于 2022-06-27 20:33:36 发布

阅读量328

点赞数

分类专栏：深度学习入门

本文链接：https://blog.csdn.net/Lucky_Go/article/details/95793274

版权

深度学习入门专栏收录该内容

8 篇文章 0 订阅

订阅专栏

实现神经网络的时候，如果不能确定反向传播计算梯度的时候有没有错误，这时候就可以进行梯度检验。简单来说梯度检验的目的就是检查程序反向传播部分有没有Bug。

数学分析

首先来看导数的数学定义：
$f^{\prime} \theta )=\lim_{\varepsilon \to 0}\frac{f(\theta+\varepsilon)-f(\theta-\varepsilon)}{2 \varepsilon} \tag1$
以 $y=\theta^3$ 为例。我们可以根据其导函数求得在 $\theta=1$ 时的导数值为 $f'(\theta=1)=3\theta^2=3$ 。对于式(1)，如果我们不考虑求极限，可以得到在 $\theta=1$ 时的导数的近似值为(令 $\varepsilon=0.001$ ，称下式为双边误差)
$f^{\prime} \theta )|_{\theta=1}=\frac{f(1.01)-f(0.99)}{0.02}=3.0001 \tag2$
可以看到，在计算正确的时候，由导函数计算出来的值应该是和双边误差计算出来的值非常接近的。

具体到神经网络的梯度值。对于一个神经网络，假设它的所有权重和阈值参数为 $\bold{W}^{[1]},\bold{b}^{[1]},\bold{W}^{[2]},\bold{b}^{[2]},...,\bold{W}^{[L]},\bold{W}^{[L]}$ ，反向传播过程求得的梯度参数为 $d\bold{W}^{[1]},d\bold{b}^{[1]},d\bold{W}^{[2]},d\bold{b}^{[2]},...,d\bold{W}^{[L]},d\bold{W}^{[L]}$ 。为了检验每一个参数 $w$ 的值，首先将他们所有的值分别转化为向量 $\theta$ 和 $d\theta$
$\theta=[w_{11}^{[1]},w_{12}^{[1]},...,b_1^{[1]}, b_1^{[2]},w_{11}^{[2]},w_{12}^{[2]},...,b_1^{[2]}, b_2^{[2]},...,w_{11}^{[L]},w_{12}^{[L]},...,b_1^{[L]}, b_2^{[L]}...] \tag 3$

$d\theta=[dw_{11}^{[1]},dw_{12}^{[1]},...,db_1^{[1]}, db_1^{[2]},dw_{11}^{[2]},dw_{12}^{[2]},...,db_1^{[2]}, db_2^{[2]},...,dw_{11}^{[L]},dw_{12}^{[L]},...,db_1^{[L]},d b_2^{[L]}...] \tag 4$

这样，对于第 $i$ 个元素，根据首先计算在当前位置的双边误差
$\theta_{\mathrm{approx}}[i]=\frac{J\left(\theta_{1}, \theta_{2}, \ldots \theta_{i}+\varepsilon, \ldots\right)-J\left(\theta_{1}, \theta_{2}, \ldots \theta_{i}-\varepsilon, \ldots\right)}{2 \varepsilon} \tag5$
其中 $J$ 表示损失函数值。
由前面的分析可以得到正确计算的情况下 $\theta_{\mathrm{approx}}[i]$ 应该是很接近损失函数在 $\theta$ 处的偏导数 $\theta_i=\frac{\partial J}{\partial \theta_{i}}$ 的值，这样在计算式(5)得到每一个 $\theta_i$ 的值之后，得到的 $\theta_{\mathrm{approx}}$ 应当是非常接近 $d\theta$ 的，我们通过以下式子来计算他们的误差
$check\_error=\frac{||d \theta_{\mathrm{approx}}-d\theta||_2}{||d \theta_{\mathrm{approx}}||_2+||d\theta||_2} \tag6$
其中 $_2$ 表示向量的欧几里得范数。
一般来说，在 $\varepsilon=1e-7$ 时，如果通过式(6)计算得到的结果小于 $1 e - 7$ 表明梯度计算是没有问题的。

注意

梯度检验知识一个调试Bug的技巧，因此在训练过程是不使用梯度检验的；
梯度检验的时候不要忘记正则化项；
不要和dropout同时使用

Lucky_Go

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[深度学习-2.5] 梯度检验

实现神经网络的时候，如果不能确定反向传播计算梯度的时候有没有错误，这时候就可以进行梯度检验。简单来说梯度检验的目的就是检查程序反向传播部分有没有Bug。首先来看导数的数学定义：(1)f′θ)=lim⁡ε→0f(θ+ε)−f(θ−ε)2εf^{\prime} \theta )=\lim_{\varepsilon \to 0}\frac{f(\theta+\varepsilon)-f(\th...
复制链接

扫一扫

专栏目录