2020-5-25 吴恩达-改善深层NN-w1 深度学习的实用层面(1.12 梯度的数值逼近（使用双边误差）--实现梯度检验需要)

最新推荐文章于 2022-10-04 19:52:32 发布

没人不认识我

最新推荐文章于 2022-10-04 19:52:32 发布

阅读量468

点赞数 1

分类专栏：深度学习 python IT 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_42555985/article/details/106325355

版权

IT 同时被 3 个专栏收录

389 篇文章 4 订阅

订阅专栏

深度学习

274 篇文章 24 订阅

订阅专栏

python

233 篇文章 0 订阅

订阅专栏

1.视频网站：mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c
2.详细笔记网站(中文)：http://www.ai-start.com/dl2017/
3.github课件+作业+答案：https://github.com/stormstone/deeplearning.ai

1.12 梯度的数值逼近 Numerical approximation of gradients

在实施反向传播backprop时，有一个测试叫做梯度检验，它的作用是确保backprop正确实施。因为有时候你虽然写下了反向传播方程式，却不能100%确定执行backprop的所有细节都是正确的。

梯度检验就是为了验证我们的梯度下降算法是否正确，当验证正确后，进行训练时
记得关闭它！

为了逐渐实现梯度检验，本节课我们首先说说如何计算梯度的数值逼近。下节课，我们将讨论如何在backprop中执行梯度检验，以确保backprop正确实施。
在这里插入图片描述

观察上图。
这是 $f(\theta)=\theta^3$ 函数。横轴上有3个坐标， $\theta-\epsilon=0.99$ , $\theta=1$ 和 $\theta+\epsilon=1.01$ ， $\epsilon=0.01$ 。

1\ 双边误差
在这里插入图片描述

按照上图，更准确的梯度预估，我们会利用图中大三角形的高和宽（蓝色线）的比值，这样更接近于的 $\theta$ 导数。(逼近误差小)

这个大三角形同时考虑(包含)了两个绿色小三角形。所以我们得到的不是一个单边公差（one sided difference，即 $\theta$ 到 $\theta+\epsilon$ 之间误差）而是一个双边公差(即 $\theta - \epsilon$ 到 $\theta+\epsilon$ 之间误差）。
在这里插入图片描述

观察上图中绿色三角形

高， $f(\theta+\epsilon) - f(\theta-\epsilon)$
宽， $2\epsilon$

因为 $f(\theta)=\theta^3$ ，所以高宽比值 $\frac {f(\theta+\epsilon) - f(\theta-\epsilon)}{2\epsilon}=\frac{(1.01)^3-(0.99)^3}{2*0.01}=3.0001$

而 $f(\theta)$ 导数 $g(\theta)=3\theta^2$ ，当 $\theta=1$ 时候， $g(\theta)=3$ 。

可以发现高宽比值 $\frac {f(\theta+\epsilon) - f(\theta-\epsilon)}{2\epsilon}$ 非常接近导数 $g(\theta)$ ，逼近误差approximation error为0.0001。

2\ 单边误差
在这里插入图片描述

我们可以看一下，如果只用 $f(\theta+\epsilon)$ 和 $f(\theta)$ 之间的小三角形的高宽比来预估 $\theta$ 导数， $\frac {f(\theta+\epsilon) - f(\theta)}{\epsilon}=\frac{(1.01)^3-(1)^3}{0.01}=3.0301$ 。