Deep Leaning 学习笔记之改善神经网络的超参数（1.3）——梯度检验

最新推荐文章于 2020-11-23 02:25:32 发布

Aperact

最新推荐文章于 2020-11-23 02:25:32 发布

阅读量196

点赞数

分类专栏： DeepLearning

本文链接：https://blog.csdn.net/m0_37108127/article/details/97630211

版权

25 篇文章 3 订阅

订阅专栏

1 梯度检验

梯度检验是用来检查反向传播中，梯度下降的方向是否正确，可以帮助你找出反向传播代码中的错误

采用双侧梯度检验
例如 $g(θ) = f(θ)=θ^3$
检验： $\frac{f(θ+E)-f(θ-E)}{2E} ≈ g(θ)$

$将各种参数：W^1,b^1,W^2,b^2,W^3,b^3......WL,bL转换为向量θ，首尾相接$
$将各种参数：dW^1,db^1,dW^2,db^2,dW^3,db^3......dW^L,db^L转换为向量θ，首尾相接$
则J（θ）= J（θ1，θ2，θ3…）
在这里插入图片描述

在这里插入图片描述

不要在训练的时候用，只在调试的时候用
如果检查出来，dθ approx 和 dθ的值不同，具体区分一下看是在 i的值取值多少的时候导致，从而检查
记住要正则化
不要和随机失活一起用。你可以把keep-prob和dropout设为1.0 然后打开dropout 希望我对于dropout的使用是正确的
还有一些别的事情可以做比如修正那些舍弃节点的模式并且使用梯度检验来检查它们的模式是否正确但实际上我通常不这样做所以我的建议是关掉随机失活(dropout) 使用梯度检验来检查你的算法在没有dropout的情况下至少是正确的然后再打开dropout 最后的这个内容有些微妙虽然很少发生但并不是没有可能你对于梯度下降的使用是正确的同时w和b在随机初始化的时候是很接近0的数但随着梯度下降的进行 w和b有所增大也许你的反向传播算法在w和b接近0的时候是正确的但是当w和b变大的时候算法精确度有所下降所以虽然我不经常使用它但是你可以尝试的一个方法是在随机初始化的时候运行梯度检验然后训练网络一段时间那么w和b 将会在0附近摇摆一段时间即很小的随机初始值在进行几次训练的迭代后再运行梯度检验