CS231n:神经网络

最新推荐文章于 2022-02-19 21:13:55 发布

solvit

最新推荐文章于 2022-02-19 21:13:55 发布

阅读量199

点赞数

分类专栏： CS231n 斯坦福CS231n 文章标签：计算机视觉 CS231n

本文链接：https://blog.csdn.net/running_do_not_stop/article/details/96438915

版权

CS231n 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

斯坦福CS231n

11 篇文章 0 订阅

订阅专栏

文章目录

反向传播
神经网络

反向传播

1. 链式法则

使用链式法则计算复合表达式 考虑复合函数 $(x+y)\times z$ 。我们将公示分为两部分 $q = x + y$ 和 $q\times z$ 。所以我们有 $\frac{\partial f}{\partial q} = z, \frac{\partial f}{\partial z} = q$ ; $\frac{\partial q}{\partial x} = 1 , \frac{\partial q}{\partial y} = 1$ 。然而函数 $f$ 关于 $x, y, z$ 的梯度才是需要关注的。从而我们需要使用链式法则。链式法则指出将这些梯度表达式链接起来的正确方式是相乘，比如 $\frac{\partial f}{\partial x} = \frac{\partial f}{\partial q}\frac{\partial q}{\partial x}$ 。

计算对应的计算图如下：
在这里插入图片描述
前向传播从输入计算到输出（绿色），反向传播从尾部开始，根据链式法则递归地向前计算梯度（显示为红色），一直到网络的输入端。可以认为，梯度是从计算链路中回流。

Sigmoid例子 如下表达式，描述了一个含输入 $x$ 和权重 $w$ 的2维的神经元，该神经元使用了sigmoid激活函数。
$\frac{1}{1 + e^{-(w_0x_0 + w_1x_1 + w_2)}}$

其对应的计算图如下所示：
在这里插入图片描述
sigmoid函数求导简化 sigmoid函数关于其输入的求导是可以简化的(使用了在分子上先加后减1的技巧)：
$\sigma (x) = \frac{1}{1 + e^{-1}} \\ \to \frac{d \sigma(x)}{dx} = \frac{e^{-x}}{(1 + e^{-x})^2} = (\frac{1 + e^{-x} - 1}{1 + e^{-x}})(\frac{1}{1 + e^{-x}}) = (1 - \sigma(x))\sigma(x)$

通过这个技巧，我们就可以实现门的合并。

2. 计算图

我们通常将操作节点叫做门，一般的我们有：

add ：梯度分发器。 $\Rightarrow \frac{\partial L}{\partial x} = \frac{\partial L}{\partial z} \frac{\partial z}{\partial x} = \frac{\partial L}{\partial z} \times 1$ 。
max：梯度路由器。 $\Rightarrow$ 被选中的参数梯度为 $\frac{\partial L}{\partial z}$ ，否则为 $0$ 。
mul：梯度交换器。 $\times y \Rightarrow \frac{\partial L}{\partial x} = \frac{\partial L}{\partial z} \frac{\partial z}{\partial x} = \frac{\partial L}{\partial z}\times y$ 。