深度学习：浅层神经网络与深度神经网络运算推导

最新推荐文章于 2024-06-12 08:36:39 发布

ShadyPi

最新推荐文章于 2024-06-12 08:36:39 发布

阅读量563

点赞数 2

分类专栏：深度学习与神经网络文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/ShadyPi/article/details/122772203

版权

深度学习与神经网络专栏收录该内容

19 篇文章 1 订阅

订阅专栏

文章目录

基本结构与符号约定
向前传播
其他激活函数
向后传播
- 浅层神经网络
- 深度神经网络

之前学习机器学习的时候已经写了几篇有关神经网络的博客，最近看吴恩达深度学习的视频，其中的神经网络跟之前又有所不同，所以记个笔记。

基本结构与符号约定

在这里插入图片描述
基本结构还是输入层、隐藏层，中间层，激励用字母 $a$ 表示，单元的层标号放在方括号中，圆括号中为样本标号，所以有输入层 $x$ （ $a^{[0]}$ ）、隐藏层 $a^{[1]}$ 和输出层 $a^{[2]}$ 。运算过程中需要用到权重 $w$ 和偏置 $b$ ，单元内的函数仍然是逻辑函数 $\sigma(z)=\frac{1}{1+e^{-z}}$ 。

声明数据矩阵 $X(n\times m)$ ，权重矩阵 $W^{[l]}(s_l\times s_{l-1})$ 和偏置矩阵 $b^{[l]}(s_l\times 1)$ ，激励矩阵 $A^{[l]}(s_l\times m)$ ， $n^{[l]}$ 表示第 $l$ 层的单元个数，令
$A^{[0]}=X=\left[\begin{matrix} |&|& &|\\ x^{(1)}&x^{(2)}&\cdots&x^{(m)}\\ |&|& &|\\ \end{matrix}\right], W^{[l]}=\left[\begin{matrix} -&w_1^{[l]T}&-\\ -&w_2^{[l]T}&-\\ &\cdots&\\ -&w_{n^{[l]}}^{[l]T}&-\\ \end{matrix}\right], b^{[l]}=\left[\begin{matrix} b^{[l]}_1\\ b^{[l]}_2\\ \vdots\\ b^{[l]}_{n^{[l]}}\\ \end{matrix}\right]$

还有一些补充可见机器学习中的神经网络。

向前传播

有机器学习中的神经网络向量化推导打底，再加上向前传播比较简单，我们就直接上多组数据+多隐藏层的情况吧。

中间向量 $z^{[l]}$ 为
$z^{[l]}=\left[\begin{matrix} z^{[l]}_1\\ z^{[l]}_2\\ \vdots\\ z^{[l]}_{n^{[l]}}\\ \end{matrix}\right]= \left[\begin{matrix} w^{[l]T}_1a^{[l-1]}+b_1^{[l]}\\ w^{[l]T}_2a^{[l-1]}+b_2^{[l]}\\ \vdots\\ w^{[l]T}_{n^{[l]}}a^{[l-1]}+b_{n^{[l]}}^{[l]}\\ \end{matrix}\right]= W^{[l]}a^{[l-1]}+b^{[l]}$
所以由 $z^{[l](i)}$ 构成的矩阵 $Z^{[l]}$ 为
$Z^{[l]}=\left[\begin{matrix} |&|& &|\\ z^{[l](1)}&z^{[l](2)}&\cdots&z^{[l](m)}\\ |&|& &|\\ \end{matrix}\right]= W^{[l]}A^{[l-1]}+b^{[l]}$
而隐藏层的激励矩阵 $A^{[l]}$ 就是
$A^{[l]}=\left[\begin{matrix} |&|& &|\\ a^{[l](1)}&a^{[l](2)}&\cdots&a^{[l](m)}\\ |&|& &|\\ \end{matrix}\right]=\sigma(Z^{[l]}) =\sigma(W^{[l]}A^{[l-1]}+b^{[l]})$

其他激活函数

之前我们的神经网络都是沿用的逻辑回归使用的逻辑函数，但事实上在神经网络中有许多更好的选择。

tanh函数

$\tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$
图像如下：
在这里插入图片描述
$\tanh$ 函数几乎是严格优越于逻辑函数，因为 $\tanh$ 函数使得激励的平均值在0左右，这能让下一层的计算更轻松。除了在输出层，我们期望的是 $0\sim 1$ 之间的输出，这时我们可以在输出层使用逻辑函数。

该函数的导数为
$tanh'(z)=1-(\tanh(z))^2$

ReLU函数

不过逻辑函数和 $\tanh$ 函数都有一个毛病，那就是在坐标的绝对值很大的时候，函数的梯度会变得非常小，这样我们在运行类似梯度下降的算法时收敛的速度就会变得很慢。而ReLU函数就可以解决这个问题，其表达式为
$\text{ReLU}(z)=\max(0,z)$
图像为：
在这里插入图片描述
这样，只要 $z > 0$ ，导数就是1，而 $z < 0$ 时导数则是0。虽然从数学上 $z = 0$ 处并没有导数，但是 $z$ 值刚好为0的概率非常小，而且我们可以人为定义其为1或0，这在实际应用中无伤大雅。

一般来讲，如果要做一个二元分类问题，我们可能会使用 $\tanh$ 函数，输出层再加一个逻辑函数，而在其他时候一般默认ReLU函数。

Leaky ReLU

在实际运用中，ReLU函数的表现通常很不错，但是因为它负数部分的导数为0，所以对于这部分它的梯度下降速率会很慢，尽管在一个网络中，我们会有很多正的部分，使参数整体仍以一个较快的速度学习。如果不放心，可以给负的部分也设置一个较小的斜率，比如 $0.01$ ，这样激活函数就表示为
$\text{Leaky ReLU}(z)=\max(0.01z,z)$
在这里插入图片描述

向后传播

浅层神经网络

向后传播较复杂，我们先推一个浅层神经网络：
在这里插入图片描述
首先，对于最后一步代价函数，其值为
$\mathcal{L}(a^{[2]},y)=-y\log a^{[2]}-(1-y)\log(1-a^{[2]})$
对 $a^{[2]}$ 求微分，可得
$\frac{d\mathcal{L}}{da^{[2]}}=-\frac{y}{a^{[2]}}+\frac{1-y}{1-a^{[2]}}$
则 $z^{[2]}$ 对代价函数的微分为
$\frac{d\mathcal{L}}{dz^{[2]}}=\frac{d\mathcal{L}}{da^{[2]}}\frac{d a^{[2]}}{dz^{[2]}}=(-\frac{y}{a^{[2]}}+\frac{1-y}{1-a^{[2]}})a^{[2]}(1-a^{[2]})=a^{[2]}-y$
之后计算 $\frac{d\mathcal{L}}{dW^{[2]}}$ 和 $\frac{d\mathcal{L}}{db^{[2]}}$ 为
$\frac{d\mathcal{L}}{dW^{[2]}}=\frac{d\mathcal{L}}{dz^{[2]}}a^{[1]T}\\ \frac{d\mathcal{L}}{db^{[2]}}=\frac{d\mathcal{L}}{dz^{[2]}}$
现在推导已经完成了一半了，我们再计算 $a^{[1]}$ 的导数为
$\frac{d\mathcal{L}}{da^{[1]}}=W^{[2]T}\frac{d\mathcal{L}}{dz^{[2]}}$
因为 $z^{[2]}$ 是 $n^{[2]}\times 1$ 的， $W^{[2]}$ 是 $n^{[2]}\times n^{[1]}$ 的，所以这里需要转置一下。之后，再求对于 $z^{[1]}$ 的导数，只需要在此基础之上乘上 $\frac{d a^{[1]}}{dz^{[1]}}$ （ $*$ 表示按位相乘）：
$\frac{d\mathcal{L}}{dz^{[1]}}=W^{[2]T}\frac{d\mathcal{L}}{dz^{[2]}}*g^{[1]'}(z^{[1]})$
而计算 $\frac{d\mathcal{L}}{dW^{[1]}}$ 和 $\frac{d\mathcal{L}}{db^{[1]}}$ 的过程与第2层几乎一模一样：
$\frac{d\mathcal{L}}{dW^{[1]}}=\frac{d\mathcal{L}}{dz^{[1]}}a^{[0]T}\\ \frac{d\mathcal{L}}{db^{[1]}}=\frac{d\mathcal{L}}{dz^{[1]}}$
以上推导都是针对单个样本的，要对多个样本进行向后传播，将样本列向量按列堆叠在一起，就可以套用上面推导的结果，其实就是所有 $n^{[l]}\times1$ 的矩阵变成了 $n^{[l]}\times m$ ，然后 $b$ 向量需要在水平方向求和一次（为了简化表达，我们用 $dZ^{[2]}$ 表示矩阵 $Z^{[2]}$ 对代价函数求导的结果，其他矩阵同理）：
$\begin{aligned} &dZ^{[2]}=(A^{[2]}-Y)\\ &dW^{[2]}=\frac{1}{m}dZ^{[2]}A^{[1]T}\\ &db^{[2]}=\frac{1}{m}np.sum(dZ^{[2]},axis=1,keepdims=True)\\ &dZ^{[1]}=W^{[2]T}dZ^{[2]}*g^{[1]'}(Z^{[1]})\\ &dW^{[1]}=\frac{1}{m}dZ^{[1]}X^T\\ &db^{[1]}=\frac{1}{m}np.sum(dZ^{[1]},axis=1,keepdims=True)\\ \end{aligned}$ keepdims的作用是让Python不要将我们的列向量(n,1)变成秩为1的矩阵(n,)，那可能导致难以发现的bug。

深度神经网络

上面的浅层网络只有两层，而对于复杂的问题，增加网络的层数（深度）比强制在一个隐藏层中添加节点要有效得多，所以就需要将上面的推导化为更一般的形式，即下面这四个公式：
$\begin{aligned} &dZ^{[l]}=dA^{[l]}*g^{[l]'}(Z^{[l]})\\ &dW^{[l]}=\frac{1}{m}dZ^{[l]}A^{[l-1]T}\\ &db^{[l]}=\frac{1}{m}np.sum(dZ^{[l]},axis=1,keepdims=True)\\ &dA^{[l-1]}=W^{[l]T}dZ^{[l]} \end{aligned}$
初始的输入 $dA^{[L]}$ 由输出节点的激励函数决定，对于 $m$ 组样本，其值为
$dA^{[L]}=\left[\begin{matrix} \frac{d\mathcal{L}}{da^{[L](1)}}&\frac{d\mathcal{L}}{da^{[L](2)}}&\cdots&\frac{d\mathcal{L}}{da^{[L](m)}} \end{matrix}\right]$