机器学习梯度检验笔记

最新推荐文章于 2024-11-07 22:09:22 发布

忆南妄北

最新推荐文章于 2024-11-07 22:09:22 发布

阅读量516

点赞数

分类专栏：机器学习文章标签：机器学习线性代数深度学习

本文链接：https://blog.csdn.net/qq_43227036/article/details/124770596

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

梯度的数值逼近

在实施dropout时，由于无法保证dropout是否正确，需要梯度检验来确保网络的正确。具体步骤是我们先通过双边差分计算出一个近似的梯度，和代码计算出的梯度比较，如果二者差的绝对值小于一个阈值，就可以认定计算正确。设函数f如下图所示：
在这里插入图片描述
对点 $\theta$ 加减 $\varepsilon$ ，其中 $\varepsilon$ 越小越好，由拉格朗日中值定理得：
$f^{'}(\theta) = \frac{f(\theta + \varepsilon) - f(\theta - \varepsilon)}{2\varepsilon}=3.000$
设程序中计算出的梯度为 $g^{'}(\theta) = 3.001$ ，则逼近误差为0.001。至于为什么使用双边差分而不是单边差分请看这篇文章，https://blog.csdn.net/kaede_xiao/article/details/115709852。

梯度检验

梯度检验步骤：

将矩阵 $W^{[1]}, b^{[1]}, .....,W^{{L}},b^{[L]}$ 拼接成一个巨大的向量 $\theta$ ,现在代价函数变为如下：
$J(W^{[1]}, b^{[1]},...,W^{[l]},b^{[l]}) = J(\theta)$
把矩阵 $dW^{[1]}, db^{[1]}, ....,dW^{[L]}, db^{[l]}$ 拼接成一个巨大的向量 $d\theta$ ,它和 $\theta$ 有相同得长度。
检验梯度
for each i:
$d\theta_{appear}[i] = \frac{J(\theta_1, \theta_2，...., \theta_i + \varepsilon, ......) - J(\theta_1, \theta_2，...., \theta_i - \varepsilon, ......)}{2 \varepsilon}$
此时的 $d\theta_{appear}[i]$ 应该逼近于 $d\theta[i]$ 。对于两个向量来说就是判断两个向量是否接近，公式如下：
$\frac{||d\theta_{appear}-d\theta||_{2}}{||d\theta_{appear}||_2 + ||d\theta||_2}$
根据L值大小判断代码运行是否正确。

梯度检验使用技巧和注意事项

不要在训练中使用梯度检验，仅仅用于debug—因为梯度检验算起来很慢。
如果算法出错的话，检查每一个 $\theta_i$ 来查找出bug。
不要忘记正则项。
梯度检验不能和dropout同时使用，因为使用dropout的网络代价函数J是不确定的，双边差分计算结果会随之变化。使用时先关闭dropout，然后进行梯度检验确保算法正确，再打开dropout。
在随机初始化参数时运行梯度检验，然后反复训练网络，再重新运行梯度检验。