梯度检测笔记

最新推荐文章于 2024-01-17 15:37:20 发布

勿讼

最新推荐文章于 2024-01-17 15:37:20 发布

阅读量196

点赞数

分类专栏：人工智能

本文链接：https://blog.csdn.net/qq_44389898/article/details/118305486

版权

人工智能专栏收录该内容

5 篇文章 1 订阅

订阅专栏

文章目录

梯度检测

梯度检测

概论

在进行BP算法进行训练时，但是在训练时是否出现错误我们也不清楚，训练一旦开始，我们就只能观测到输出信息，如何检测反向传播算法是否正确工作呢?

梯度检验来了，它通过拉格朗日定理检测偏导值与实际的偏导函数之间的误差大小来判断是否出现了错误。

还有一点，在现有的训练框架中，这些细节都被封装起来了，但是作为学习，还是有必要搞清楚的其原理实现的。

1 基础原理

1.1 拉格朗日中值定理

$\frac{f(\theta + ε) -f(\theta - ε)}{2ε} \approx f'(\theta)$

实际上，这个公式只是近似等于，而且成立的条件是ε趋向于0，要想使其成为恒等式，则要加上误差
$\frac{f(\theta + ε) -f(\theta - ε)}{2ε} = f'(\theta) + O(ε^{2})$

1.2 验证公式

得到了恒等式，那么怎么评判是否合格呢？还需要将O(ε^2)标准化，那就要用到二范数，计算公式为:

所以令h(θ)
$h(\theta)=\frac{f(\theta + ε) -f(\theta - ε)}{2ε}$
则
$\frac{||h(\theta)-f'(\theta)||_2}{||h(\theta)||_2 + ||f'(\theta)||_2}$
到此处，就计算出了偏差值的标准化结果。

如果值小于10的-7次方则完全不用担心，如果数值过大，则需要检查下代码了。

2 梯度检验的实现

原理明白了，接下来该实现了

在实际操作中，肯定不止一个θ，定义J(θ)为损失函数

则上述公式就变成了
$h(\theta_i) = \frac{J(\theta_1,\theta_2,\theta_3,...\theta_i+\epsilon,...)-J(\theta_1,\theta_2,\theta_3,...\theta_i-\epsilon,...)}{2\epsilon}\\ d\theta_i = \frac{\partial J}{\partial \theta_i}$
于是乎：
$\frac{||h(\theta_i)-d\theta_i||_2}{||h(\theta_i)||_2+||d\theta_i||_2}<threshold$
代码表示为

for i =1 ：n,
 thetaPlus = theta;
 thetaPlus(i) = thetaPlus(i)；
 thetaMinus = theta;
 thetaMinus(i) =thetaMinus(i) - EPSILON；
 gradApprox(i) = (J(thetaPlus) - J(thetaMinus)) / (2*EPSILON);
END

3 注意事项

1.只适用于调试阶段，训练阶段使用太耗费时间而且意义不大

2.不能与dropout同时使用，使用dropout会使得损失函数变得不明确，从而无法使用该方法检测

3.如果使用L2正则项，还需要加上L2正则项

勿讼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度检测笔记

文章目录梯度检测概论1 基础原理1.1 拉格朗日中值定理1.2 验证公式2 梯度检验的实现3 注意事项梯度检测概论在进行BP算法进行训练时，但是在训练时是否出现错误我们也不清楚，训练一旦开始，我们就只能观测到输出信息，如何检测反向传播算法是否正确工作呢?梯度检验来了，它通过拉格朗日定理检测偏导值与实际的偏导函数之间的误差大小来判断是否出现了错误。还有一点，在现有的训练框架中，这些细节都被封装起来了，但是作为学习，还是有必要搞清楚的其原理实现的。1 基础原理1.1 拉格朗日中值定理f(θ+ε)
复制链接

扫一扫