深度学习的实用层面 —— 1.13 梯度检验

最新推荐文章于 2022-09-26 13:19:37 发布

然后就去远行吧

最新推荐文章于 2022-09-26 13:19:37 发布

阅读量224

点赞数 1

分类专栏：吴恩达深度学习

本文链接：https://blog.csdn.net/qq_37388085/article/details/103414127

版权

吴恩达深度学习专栏收录该内容

61 篇文章 30 订阅

订阅专栏

假设你的网络中含有下列参数 $W^{[1]}$ 和 $b^{[1]}$ ， $W^{[2]}$ 和 $b^{[2]}$ ，一直到 $W^{[L]}$ 和 $b^{[L]}$ 。为了执行梯度检验，首先要做的就是把所有参数转换成一个巨大的向量数据，你要做的就是把矩阵 $W$ 转换成一个向量，把所有 $W$ 矩阵转换成向量之后，做连接运算，得到一个巨型向量 $\theta$ ，代价函数表示为 $J(\theta)$ ，接着你得到了与 $W$ 和 $b$ 顺序相同的数据 $dW^{[1]}$ 和 $d^{[1]}$ ， $dW^{[2]}$ 和 $db^{[2]}$ ，一直到 $dW^{[L]}$ 和 $db^{[L]}$ ，用它们来初始化大向量 $d\theta$ ，它与 $\theta$ 有相同维度。同样地，把 $dW^{[1]}$ 转换成矩阵， $db^{[1]}$ 已经是一个向量了，直到把 $dW^{[L]}$ 转换成矩阵，这样所有的 $d W$ 都是矩阵，注意 $d W$ 与 $W_1$ 具有相同维度。

经过相同的转换和连接运算操作之后，可以把所有导数转换成一个大向量 $d\theta$ ，它与 $\theta$ 有相同的维度。现在的问题是 $d\theta$ 与代价函数J的梯度有什么关系？

以下是实施梯度检验的过程，首先我们要清楚，函数J是超参数 $\theta$ 的一个函数，可以将J函数展开为 $J(\theta_1,\theta_2,...,\theta_n)$ ，不论超参数向量 $\theta$ 的维度是多少。为了实施梯度检验，你要做的就是循环执行，从而对每个 $i$ 也就是对每个 $\theta$ 组成元素计算 $D\theta_{approx}[i]$ 的值，使用双边误差 $d\theta_{approx}[i]=\frac{J(\theta_1,\theta_2,...,\theta_i+\varepsilon ,...,)-J(\theta_1,\theta_2,...,\theta_i-\varepsilon ,...,)}{2\varepsilon}$ 这个值 $d\theta_{approx}$ 应该逼近 $d\theta^{[i]}$ ， $d\theta^{[i]}$ 是代价函数的偏导数，需要对i的每个值都执行这个运算，最后得到两个向量 $d\theta$ 和 $d\theta_{approx}$ ，我们要做的就是验证这些向量是否彼此接近。

如何定义这两个向量是否真的接近彼此，一般做以下运算计算这两个向量的距离，即 $||d\theta_{approx}-d\theta||_2$ ，注意这个公式中没有平方，它是误差平方之和，然后求平方根，得到欧式距离，然后用向量长度做归一化，结果为 $\frac{||d\theta_{approx}-d\theta||_2}{||d\theta_{approx}||_2+||d\theta||_2}$ ，使用向量长度的欧几里得范数，分母只是用于预防这些向量太大或者太小，分母使得这个方程式变成比率。我们实际执行这个方程式， $\varepsilon$ 的值可能为 $10^{-7}$ ，使用这个取值范围内的 $\varepsilon$ ，如果你发现计算方程式得到的值为 $10^{-7}$ 或者更小，这就很好，这意味着导数逼近很有可能是正确的。如果它的值在 $10^{-5}$ ，那就要小心了，也许这个值没问题，但得再次检查这个向量的所有项，确保没有一项误差过大，如果有一项误差非常大，可能就是存在bug。如果方程式结果是 $10^{-3}$ ，就得检查是否是bug了，计算结果应该比 $10^{-3}$ 小得多，这时应该仔细检查所有 $\theta$ 项，看是否有一个具体的 $i$ 值，使得 $d\theta_{approx}$ 和 $d\theta$ 大不相同，并用它来追踪一些求导计算是否正确。

经过一些调试，最终会是非常小的值，例如 $10^{-7}$ ，那么可能实施是正确的。在实施神经网络时，经常需要执行foreprop和backprop，然后可能发现这个梯度检验有一个相对较大的值，然后就怀疑存在bug，然后开始调试、调试、调试。调试一段时间后，得到一个很小的梯度检验值。

然后就去远行吧

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习的实用层面 —— 1.13 梯度检验

假设你的网络中含有下列参数W[1]W^{[1]}W[1]和b[1]b^{[1]}b[1]，W[2]W^{[2]}W[2]和b[2]b^{[2]}b[2]，一直到W[L]W^{[L]}W[L]和b[L]b^{[L]}b[L]。为了执行梯度检验，首先要做的就是把所有参数转换成一个巨大的向量数据，你要做的就是把矩阵WWW转换成一个向量，把所有WWW矩阵转换成向量之后，做连接运算，得到一个巨型向量θ\th...
复制链接

扫一扫