深度学习入门笔记（三）：求导和计算图

最新推荐文章于 2025-04-16 22:21:41 发布

原创最新推荐文章于 2025-04-16 22:21:41 发布

· 6.8k 阅读

106 ·

版权

文章标签：

#深度学习 #求导 #计算图 #链式法则 #复合函数求导

深度学习入门笔记❤️ 专栏收录该内容

23 篇文章

订阅专栏

本文深入浅出地解析了导数的概念及其在深度学习中的应用，通过实例讲解了如何利用计算图进行导数计算，是理解深度学习数学基础的必备指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

欢迎关注WX公众号：【程序员管小亮】

专栏——深度学习入门笔记

声明

1）该文章整理自网上的大牛和机器学习专家无私奉献的资料，具体引用的资料请看参考文献。
2）本文仅供学术交流，非商用。所以每一部分具体的参考资料并没有详细对应。如果某部分不小心侵犯了大家的利益，还望海涵，并联系博主删除。
3）博主才疏学浅，文中如有不当之处，请各位指出，共同进步，谢谢。
4）此属于第一版本，若有错误，还需继续修正与增删。还望大家多多指点。大家都共享一点点，一起为祖国科研的推进添砖加瓦。

文章目录

欢迎关注WX公众号：【程序员管小亮】

深度学习入门笔记（三）：求导和计算图

0、写在前面

这一次主要是想对微积分和导数直观理解一下。很多人在想或许自从大学毕以后，再也没有接触微积分。不要担心，为了高效应用神经网络和深度学习，其实 并不需要非常深入理解微积分。

如果你是精通微积分的那一小部分人群，对微积分非常熟悉，可以跳过这个笔记。

1、导数

导数，也叫导函数值，又名微商，是微积分中的重要基础概念，但是其实理解起来并没有那么难。来看一个例子：
在这里插入图片描述
一个函数 $f (a) = 3 a$ ，如图可以看出它是一条直线，这个别说你不会，xD。那么什么是导数，简单理解一下：

看看函数中几个点，假定 $a = 2$ ，那么 $f (a) = 3 a$ 是 $a$ 的 3 倍，也就是 3 * 2 = 6，即若 $a = 2$ ，那么函数 $f (a) = 6$ ，第一个点就是 $（ a ， f (a) ） = （ 2 ， 6 ）$ 。

如果假定稍微改变一点点 $a$ 的值，只增加一点，变为 2.001（只增加了 0.001），这时 $a$ 将向右做微小的移动。0.001 的差别实在是太小了， $10^{-3}$ 数量级的移动，不能在图中很明显地看出来，这里稍稍夸张了一下，意思到位就ok。现在 $f (a) = 3 a$ 等于 $a$ 的 3 倍是 2.001 * 3 = 6.003。

请看这个绿色小清新的三角形！！！根据刚才的结果，如果向右移动 0.001，那么 $f (a)$ 增加 6.003 - 6 = 0.003， $f (a)$ 的值增加 3 倍于右移的 $a$ ，0.003 / 0.001 = 3，因此我们说函数 $f (a)$ 在 $a = 2$ 点的导数就是在这个点的斜率，而这个点的斜率是 3，那么斜率是什么？
在这里插入图片描述
已知一个图如上，斜率 K 计算公式如下：

导数这个概念意味着斜率！！！导数这个词，听起来就是一个很可怕、很令人惊恐的词，但是斜率以一种很友好的方式来描述导数这个概念。所以提到导数，不严格的说，就把它当作函数的斜率就好了。通过一个例子来体会一下斜率的定义，在上图的绿色三角形中，用三角形的高除以三角形的宽，即斜率等于 0.003 / 0.001 = 3，等于3，或者说导数等于 3。这意味着什么呢？这意味着当你将 $a$ 右移 0.001时， $f (a)$ 的值增加 3 倍水平方向的量。

如果换个数呢？现在假设 $a = 5$ 也是一样的，此时 $f (a) = 3 a = 15$ 。把 $a$ 右移一个很小的幅度，增加到 5.001，根据 $f (a) = 3 a$ 可以得到 3 * 5.001 = 15.003。即在 $a = 5$ 时，斜率是 3。这就表示，当变量 $a$ 的值发生微小改变时， $\frac{df(a)}{da}=3$ 。一个等价的导数表达式还可以这样写 $\frac{d}{da}f(a)$ ，即 $f (a)$ 放在上面或者放在右边都没有关系，是一样的。

那就是导数的正式定义！！！数学上导数用 $\frac{df(a)}{da}$ 表示。

导数的一个特性是：这个例子中的这个函数在任何地方的斜率总是等于 3，不管 $a = 2$ 或 $a = 5$ ，这个函数的斜率总等于3，也就是说导数总等于 3。那么所有的函数斜率都是不变的嘛？当然不是，下面这个例子中函数在不同点的斜率是可变的。

2、深入理解导数

下面来看一个更加复杂的例子，有多复杂？在这个例子中，函数在不同点处的斜率是不一样的，别慌，先来举个例子：
在这里插入图片描述
这里有一个不一样的函数， $f(a)={{\text{a}}^{\text{2}}}$ ，直观上看，是个曲线，眉头一皱，感觉事情不太对劲。现在如果假设 $a=\text{2}$ 的话，那么 $f(a)={{\text{a}}^{\text{2}}}$ 可以得到 $f(2) = 2^2 = 4$ 。还是稍稍往右推进一点点，现在 $a=\text{2}.\text{001}$ ，则 $f(a)\approx 4.004$ (为什么要约等于？如果你用计算器算的话，就会发现这个准确的值应该为4.004001，只是为了简便起见，省略了后面的部分)。

在这里插入图片描述
还是画图的方法进行理解，得到一个小三角形，如果细心的话你就会发现，这次严格意义上并不是三角形。如果把 $a$ 往右移动 0.001，那么 $f (a)$ 将增大四倍，即增大 4.004 - 4 = 0.004，而 0.004 / 0.001 = 4。

在微积分中，把这个三角形斜边的斜率，称为 $f (a)$ 在点 $a=\text{2}$ 处的导数(即为 4 )；或者写成微积分的正式定义形式，当 $a=\text{2}$ 的时候， $\frac{d}{da}f(a)=4$ 。由此可知，函数 $f(a)={{a}^{{2}}}$ ，在 $a$ 取不同值的时候，它的斜率是不同的，这和上面的例子显然是不同的。

如果你还是不太理解的话，这里有种直观的方法可以解释，就是画图法。为什么一个点的斜率，在不同位置会不同如果？我们可以在曲线上的不同位置，画一些小小的三角形你就会发现，三角形高和宽的比值，即斜率，在曲线上不同的地方是不同的。所以当 $a = 2$ 时，斜率为 4；而当 $a = 5$ 时，斜率为 10。

如果严谨地说，可以百度导数表。你会发现，函数 $f(a)={{a}^{{2}}}$ 的斜率（即导数）为 $2 a$ ，而函数 $f (a) = 3 a$ 的斜率（即导数）为3。
在这里插入图片描述
这意味着什么？这么说，如果任意给定一点 $a$ ，稍微将 $a$ 增大 0.001，两个函数增大的完全不一样。一个是和 $a$ 有关的，而另一个则是常数。

来小结一下：

导数就是斜率，而函数的斜率在不同的点可能是不同的。在 $f(a)=\text{3}a$ 时，在任何点它的斜率都是相同的，均为3。但对 $f(a)={{\text{a}}^{\text{2}}}$ ，斜率是变化的，所以它们的导数或者斜率，在曲线上不同的点处是不同的。
如果想知道一个函数的导数，可参考导数表，然后应该就能找到这些函数的导数公式，直接带数就完事了。

3、计算图

一个神经网络的计算大体上可以看成是，前向或反向传播组合而成的。只有公式描述，确实有一些晦涩，这个时候我们想到了计算图。计算图是什么？

计算图是一种描述方程的语言，既然是图，则有 节点（变量） 和 边（操作）。

在这里插入图片描述
这么说太官方了，来举一个比逻辑回归更加简单的，或者说不那么正式的神经网络的例子。

我们的目的是计算函数 $J$ ，函数 $J$ 的组成是什么呢？是由三个变量 $a, b, c$ 组成的函数，这个函数是 $\text{3(a}+\text{bc)}$ 。计算这个函数实际上有三个不同的步骤，也就是拆分一下，用复合函数的思想去理解。

首先是计算 $b$ 乘以 $c$ ，用一个函数 ${u}={bc}$ 来表示；然后计算另一个函数 $v = a + u$ ；最后输出 $J = 3 v$ ，这就是要计算的函数 $J$ 。这三步可以画成如下的计算图：在这里插入图片描述
先画三个变量 $a, b, c$ ，第一步就是计算 $u = b c$ ，放个矩形框，它的输入是 $b, c$ ；接着还是放个矩形框，进行第二步 $v = a + u$ ；最后一步还是个矩形框，进行 $J = 3 v$ 。

举个例子： $a = 5, b = 3, c = 2$ ， $u = b c$ 就是 3 * 2 = 6；而 $v = a + u$ ，就是 5+6=11； $J$ 是 3 倍的 $v$ ，因此， $J$ = 3 × (5 + 3 × 2)。如果把它算出来，就得到33，实际上就是 $J$ 的值。

计算图的一个大优势是：当有不同的或者一些特殊的输出变量时，例如上面例子中的 $J$ 和逻辑回归中准备优化的代价函数 $J$ ，用计算图来处理会很方便。从这个小例子中可以看出，通过一个从左向右（蓝色箭头）的过程，可以计算出 $J$ 的值。而为了计算导数，从右到左（红色箭头，和蓝色箭头的过程相反）的过程是用于计算导数最自然、最直观的方式。

4、使用计算图求导数

如何利用计算图来计算函数 $J$ 的导数呢？

先不急，来看个例子，下面用到的公式：

$\frac{dJ}{du}=\frac{dJ}{dv}\frac{dv}{du}$

$\frac{dJ}{db}=\frac{dJ}{du}\frac{du}{db}$

$\frac{dJ}{da}=\frac{dJ}{du}\frac{du}{da}$

这是一个计算图，记录了整个流程：
在这里插入图片描述

假设计算 $\frac{{dJ}}{{dv}}$ ，那要怎么算呢？如果你会微积分的话，就好说了，直接求导数没啥好说的；那么不会的话呢，也不用着急！这么看，比如要把这个 $v$ 值拿过来，改变一下，那么 $J$ 的值会怎么变呢？（是不是用上了上面提到的导数讲解 😃）

首先 $J = 3 v$ ， $v = 11$ ， $J = 33$ ，这是已知条件。如果让 $v$ 增加一点点，比如到11.001，那么 $J = 3 v = 33.003$ ，这里 $v$ 增加了 0.001，而最终结果是 $J$ 上升了 0.003，也就是原来的 3 倍，所以 $\frac{{dJ}}{{dv}}=3$ 。

为啥这么说？当然是因为对于任何 $v$ 的增量， $J$ 都会有 3 倍增量。所以有 $J = 3 v$ ，推出 $\frac{{dJ}}{{dv}} =3$ 。

吴恩达老师的手稿如下：
在这里插入图片描述

看另一个例子， $\frac{{dJ}}{da}$ 是多少呢？换句话说，如果提高 $a$ 的值， $J$ 的数值有什么影响？

变量 $a = 5$ ，增加到了 5.001，那么对 $v$ 的影响就是 $a + u$ ，之前 $v = 11$ ，现在变成 5.001 - 5 + 11 = 11.001， $J$ 就变成11.001 * 3 = 33.003，所以 $a$ 增加 0.001， $J$ 增加 0.003。那么增加 $a$ ， $a$ 的改变量会传播到计算图的最右边，所以 $J$ 最后是 33.003。所以 $J$ 的增量是 3 乘以 $a$ 的增量，也就意味着导数是 3，即 $\frac{{dJ}}{da}=3$ 。

吴恩达老师的手稿如下：
在这里插入图片描述
要解释清楚这个计算过程，就会牵扯出链式法则，名字虽然挺厉害的，其实很简单。

首先 $a$ 增加了， $v$ 也会增加； $v$ 增加多少呢？这取决于 $\frac{{dv}}{da}$ ；然后 $v$ 的增加导致 $J$ 也会增加。所以这在微积分里实际上叫链式法则，顾名思义，互相之间被链住了，一个变化都会变化。

那么怎么计算一个链式法则的求导呢？

其实不难，前面给了三个公式，这就是答案。通过分解的方法，把整个链式法则分解为几个小的链子，分别求导再相乘，就解出正确答案了。

通过改变一个变量来看另一个变量的变化关系这种方法，我们得到了 $\frac{{dJ}}{{dv}} =3$ 、 $\frac{{dv}}{da} =1$ ，所以 $\frac{{dJ}}{da}=\frac{{dJ}}{{dv}} \frac{{dv}}{da}=3 * 1=3$ ，即为所求。

下图表示了整个计算过程：
在这里插入图片描述

继续计算另一条线的导数，也就是这个 $u$ ，那么 $\frac{dJ}{du}$ 是多少呢？

通过和之前类似的计算，这里简单说一下。从 $u = 6$ 出发，令 $u$ 增加到 6.001， $v$ 之前是 11，现在变成 6.001 - 6 + 11 = 11.001， $J$ 从 33 变成 33 * 3 = 33.003，所以 $\frac{{dJ}}{du}= 3$ 。

对 $u$ 的分析很类似对 a 的分析，为啥这么说呢？实际上还是计算， $\frac{{dJ}}{du}=\frac{{dJ}}{dv}\cdot \frac{{dv}}{du}$ ，又因为有 $\frac{{dJ}}{dv} =3$ 、 $\frac{{dv}}{du} = 1$ ，最终算出的结果是 $3 \times 1 = 3$ ，所以可以看出对 $u$ 的分析类似对 a 的分析。

吴恩达老师的手稿如下：
在这里插入图片描述

现在，来看最后一个例子，那么 $\frac{{dJ}}{db}$ 呢？

事实上，使用微积分链式法则，这也可以写成乘积的形式，就是 $\frac{{dJ}}{db}=\frac{{dJ}}{du}\cdot \frac{{du}}{db}$ 。

当 $b$ 增加 0.001 变成 3.001 时， $u = b c$ 就变成 3.001 * 2 = 6.002， $u$ 增加了 6.002 - 6 = 0.002，也就是 $b$ 的增加量的二倍，所以 $\frac{{du}}{db} =2$ 。那么 $\frac{{dJ}}{du}$ 是多少呢？在前面我们已经弄清楚了，等于 3，所以这两部分相乘，可得 $\frac{{dJ}}{db}= 6$ 。