深度学习的实用层面 —— 1.12 梯度的数值逼近

最新推荐文章于 2023-08-17 01:36:06 发布

然后就去远行吧

最新推荐文章于 2023-08-17 01:36:06 发布

阅读量462

点赞数

分类专栏：吴恩达深度学习

本文链接：https://blog.csdn.net/qq_37388085/article/details/103413162

版权

吴恩达深度学习专栏收录该内容

61 篇文章 30 订阅

订阅专栏

在实施backprop的时候，有一个测试叫做梯度检验，它的作用是确保backprop正确实施。因为有时候，虽然写下了这些方程式，却不能100%确定，执行backprop的所有细节都是正确的。为了逐渐实现梯度检验，我们首先说说如何对计算梯度做数值逼近。
在这里插入图片描述
我们首先画出函数f，标记为 $f(\theta)$ ， $f(\theta)=\theta^3$ ，假设 $\theta=1$ 。不增大 $\theta$ 的值，而是在 $\theta$ 右侧设置一个 $\theta+\varepsilon$ ，在 $\theta$ 左侧设置一个 $\theta - \varepsilon$ ，因此 $\theta=1$ ， $\theta+\varepsilon=1.01$ ， $\theta - \varepsilon=0.99$ 。

在函数图中画一个三角形，计算高和宽的比值，就是更准确的坡度预估。
在这里插入图片描述
选择f函数在 $\theta-\varepsilon$ 上的这个点，用大三角形的高比上宽，较大三角形的高宽比值更接近于 $\theta$ 的导数，把右上角的小三角形下移，好像有了两个三角形，右上角一个，左下角一个。我们通过这个绿色大三角形同时考虑了这两个小三角形，所以我们得到的不是一个单边公差而是一个双边公差。

写一下计算公式， $\theta+\varepsilon$ 这个点对应的函数值为 $f(\theta+\varepsilon)$ ， $\theta-\varepsilon$ 这个点对应的函数值为 $f(\theta-\varepsilon)$ ，这个三角形的高度是 $f(\theta+\varepsilon)-f(\theta-\varepsilon)$ ，三角形的宽度为 $2\varepsilon$ ，高宽比值为 $\frac{f(\theta+\varepsilon)-f(\theta-\varepsilon)}{2\varepsilon}$ 它的期望值接近 $g(\theta)$ 。

传入参数值 $f(\theta)=\theta^3$ ， $\theta+\varepsilon=1.01$ ， $\frac{1.01^3-0.99^3}{2*0.01}=3.0001$ ，而 $g(\theta)=3\theta^2=3$ ，所以这两个 $g(\theta)$ 值非常接近，逼近误差为0.0001.

只考虑单边公差，即从 $\theta$ 到 $\theta+\varepsilon$ 之间的误差， $g(\theta)$ 的值为3.0301，逼近误差是0.03而不是0.0001，所以使用双边误差的方法更逼近导数，其结果接近3。在梯度检验和反向传播中使用该方法时，最终它与运行两次单边公差的速度一样。

导数的官方定义是针对值很小的 $\varepsilon$ ： $f'(\theta)=\lim_{\varepsilon \rightarrow 0}\frac{f(\theta+\varepsilon)-f(\theta-\varepsilon)}{2\varepsilon}$ 对于一个非零的 $\varepsilon$ ，它的逼近误差可以写成 $O(\varepsilon^2)$ ， $\varepsilon$ 的值非常小。如果 $\varepsilon=0.01$ ， $\varepsilon^2=0.0001$ ，大写符号O的含义是指逼近误差其实是一些常量乘于 $\varepsilon^2$ ，但它的确是很准确的逼近误差，所以大写O的常量有时是1,。

然而如果我们用另外一个公式 $\frac{f(\theta+\varepsilon)-f(\theta)}{\varepsilon}$ 逼近误差就是 $\varepsilon$ ，当 $\varepsilon$ 小于1时，实际上 $\varepsilon$ 比 $\varepsilon^2$ 大很多，所以这个公式的近似值没有上面公式准确。所以在执行梯度检验时，我们使用双边误差，即 $\frac{f(\theta+\varepsilon)-f(\theta-\varepsilon)}{2\varepsilon}$ 而不使用单边公差，因为它不够准确。

然后就去远行吧

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习的实用层面 —— 1.12 梯度的数值逼近

在实施backprop的时候，有一个测试叫做梯度检验，它的作用是确保backprop正确实施。因为有时候，虽然写下了这些方程式，却不能100%确定，执行backprop的所有细节都是正确的。为了逐渐实现梯度检验，我们首先说说如何对计算梯度做数值逼近。我们首先画出函数f，标记为f(θ)f(\theta)f(θ)，f(θ)=θ3f(\theta)=\theta^3f(θ)=θ3，假设θ=1\thet...
复制链接

扫一扫