吴恩达-deep learning 01.神经网络与深度学习Week4

最新推荐文章于 2024-09-27 20:57:01 发布

Paul-Huang

最新推荐文章于 2024-09-27 20:57:01 发布

阅读量297

点赞数

分类专栏：吴恩达-深度学习笔记文章标签：神经网络 python 算法

本文链接：https://blog.csdn.net/huang1024rui/article/details/108164178

版权

吴恩达-深度学习笔记专栏收录该内容

8 篇文章 8 订阅

订阅专栏

Week4：深层神经网络(Deep Neural Networks)

4.1 深层神经网络（Deep L-layer neural network）

定义
深层神经网络其实就是包含更多的隐藏层神经网络。

上图分别列举了逻辑回归、1个隐藏层的神经网络、2个隐藏层的神经网络和5个隐藏层的神经网络它们的模型结构。
- 命名规则：一般只参考隐藏层个数和输出层。如果是L-layer NN，则包含了L-1个隐藏层，最后的L层是输出层。
  
  上图中的逻辑回归又叫1 layer NN，1个隐藏层的神经网络叫做2 layer NN，2个隐藏层的神经网络叫做3 layer NN，以此类推。
- 为什么要深度神经网络：但是在过去的几年中，DLI（深度学习学院 deep learning institute）意识到有一些函数，只有非常深的神经网络能学会，而浅的模型效果不好。
  
  对于任何给定的问题很难提前预测到底需要多深的神经网络，所以:
  1.先去尝试逻辑回归，尝试一层然后两层隐含层；
  2. 然后把隐含层的数量看做是另一个可以自由选择大小的超参数；
  3. 最后再保留交叉验证数据上评估，或者用你的开发集来评估。
深度学习的符号定义
以四层神经网络为例：
- 层数：用 $L$ 表示，上图 $L = 4$ ，输入层是第 $0$ 层，输出层是第 $L$ 层。
- $l$ 层的隐藏单元：用 $n^{[l]}，l=0,1,\cdots,L$ 表示第 $l$ 层包含的单元个数。
  - 这个模型中， $n^{[0]}=n_x=3$ ，表示三个输入特征 $x_1,x_2,x_3$ 。
  - $n^{[1]}=5，n^{[2]}=5，n^{[3]}=3，n^{[4]}=n^{[L]}=1$ 。
- 第 $l$ 层的激活函数的结果：用 $a^{[l]}$ 表示， $a^{[l]}=g^{[l]}(z^{[l]})$ 。
- 第 $l$ 层的权重：用 $W^{[l]}$ 表示，用于计算 $z^{[l]}$ 。
- 输入 $x$ 记为 $a^{[0]}$ ，把输出层 $\hat y$ 记为 $a^{[L]}$ 。
注意， $a^{[l]}$ 和 $W^{[l]}$ 中的上标l都是从 $1$ 开始的， $l=1,\cdots,L$ 。

4.2 深层网络中的前向传播（Forward propagation in a Deep Network）

单个样本
以上面4层神经网络为例，对于单个样本，推导深层神经网络的正向传播过程：
- 第1层( $l = 1$ )：
  $\begin{array}{l}z^{[1]}=W^{[1]}x+b^{[1]}=W^{[1]}a^{[0]}+b^{[1]}\\ a^{[1]}=g^{[1]}(z^{[1]})\end{array}$
- 第2层( $l = 2$ )：
  $\begin{array}{l}z^{[2]}=W^{[2]}a^{[1]}+b^{[2]}\\ a^{[2]}=g^{[2]}(z^{[2]})\end{array}$
- 第3层( $l = 3$ )：
  $\begin{array}{l}z^{[3]}=W^{[3]}a^{[2]}+b^{[3]}\\ a^{[3]}=g^{[3]}(z^{[3]})\end{array}$
- 第4层( $l = 4$ )：
  $\begin{array}{l}z^{[4]}=W^{[4]}a^{[3]}+b^{[4]}\\ a^{[4]}=g^{[4]}(z^{[4]})\end{array}$
$m$ 个训练样本
对于 $m$ 个训练样本，其向量化矩阵形式为：
- 第1层( $l = 1$ )：
  $\begin{array}{l}Z^{[1]}=W^{[1]}X+b^{[1]}=W^{[1]}A^{[0]}+b^{[1]}\\ A^{[1]}=g^{[1]}(Z^{[1]})\end{array}$
- 第2层( $l = 2$ )：
  $\begin{array}{l}Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}\\ A^{[2]}=g^{[2]}(Z^{[2]})\end{array}$
- 第3层( $l = 3$ )：
  $\begin{array}{l}Z^{[3]}=W^{[3]}A^{[2]}+b^{[3]}\\ A^{[3]}=g^{[3]}(Z^{[3]})\end{array}$
- 第4层( $l = 4$ )：
  $\begin{array}{l}Z^{[4]}=W^{[4]}A^{[3]}+b^{[4]}\\ A^{[4]}=g^{[4]}(Z^{[4]})\end{array}$
小总结
对于第 $l$ 层，其正向传播过程的 $Z^{[l]}$ 和 $A^{[l]}$ 可以表示为：
$\begin{array}{l}Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}\\ A^{[l]}=g^{[l]}(Z^{[l]})\end{array}$
其中 $l=1,\cdots,L$ 。

4.3 核对矩阵的维数（Getting your matrix dimensions right）

当实现深度神经网络的时候，检查代码是否有错的方法：拿出一张纸核对一遍算法中 $\color{red}矩阵的维数$ 。

单个训练样本
对于单个训练样本，输入 $x$ 的维度是 $n^{[0]},1)$ 神经网络的参数：
- 正向传播
  - $W^{[l]}$ 和 $b^{[l]}$ 的维度分别是：
    $\begin{array}{l}W^{[l]}:\ (n^{[l]},n^{[l-1]})\\ b^{[l]}:\ (n^{[l]},1)\end{array}$
    其中， $l=1,\cdots,L$ ， $n^{[l]}$ 和 $n^{[l-1]}$ 分别表示第 $l$ 层和 $l - 1$ 层的所含单元个数。
  - $n^{[0]}=n_x$ ，表示输入层特征数目。
- 反向传播
  - $dW^{[l]}$ 和 $db^{[l]}$ 的维度分别是：
    $\begin{array}{l}dW^{[l]}:\ (n^{[l]},n^{[l-1]})\\ db^{[l]}:\ (n^{[l]},1)\end{array}$
    
    注意： $\color{red}W^{[l]}$ 与 $\color{red}dW^{[l]}$ 维度 $\color{red}相同$ ， $\color{red}b^{[l]}$ 与 $\color{red}db^{[l]}$ 维度 $\color{red}相同$ 。
  - $z^{[l]}$ 和 $a^{[l]}$ 的维度分别是：
    $\begin{array}{l}z^{[l]}:\ (n^{[l]},1)\\ a^{[l]}:\ (n^{[l]},1)\end{array}$
    1. $\color{red}z^{[l]}$ 和 $\color{red}a^{[l]}$ 的维度 $\color{red}相同$ ；
    2. $\color{red}dz^{[l]}$ 和 $\color{red}da^{[l]}$ 的维度均与 $\color{red}z^{[l]}$ 和 $\color{red}a^{[l]}$ 的维度 $\color{red}相同$ 。
$m$ 个训练样本
对于 $m$ 个训练样本，输入矩阵X的维度是 $n^{[0]},m)$ 。
- $W^{[l]}$ 和 $b^{[l]}$ 的维度与单个样本的维度 $\color{red}相同$ ：
  $\begin{array}{l}W^{[l]}:\ (n^{[l]},n^{[l-1]})\\ b^{[l]}:\ (n^{[l]},1)\end{array}$
  - 在运算 $Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}$ 中， $b^{[l]}$ 会被当成 $n^{[l]},m)$ 矩阵进行运算(python的广播)，且 $b^{[l]}$ 每一列向量都是一样的。
  注： $\color{red}dW^{[l]}$ 和 $\color{red}db^{[l]}$ 的维度分别与 $\color{red}W^{[l]}$ 和 $\color{red}b^{[l]}$ 的 $\color{red}相同$ 。
- $Z^{[l]}$ 和 $A^{[l]}$ 的维度与单个样本的维度不同：
  $\begin{array}{l}Z^{[l]}:\ (n^{[l]},m)\\ A^{[l]}:\ (n^{[l]},m)\end{array}$
  
  注： $\color{red}dZ^{[l]}$ 和 $\color{red}dA^{[l]}$ 的维度分别与 $\color{red}Z^{[l]}$ 和 $\color{red}A^{[l]}$ 的 $\color{red}相同$ 。

在做深度神经网络的反向传播时，一定要确认所有的矩阵维数是前后一致的！！！！

4.4 为什么使用深层表示？（Why deep representations?）

深度神经网络能解决好多问题，并不需要很大的神经网络，但是得有深度，得有比较多的隐藏层，这是为什么呢？

特征复杂（认知科学）的角度
- 例子：人脸识别
  
  假设有四层神经网络，经过训练：
  - 神经网络第一层是从原始图片中提取出人脸的轮廓与边缘，即边缘检测。这样每个神经元得到的是一些边缘信息。
  - 神经网络第二层是将前一层的边缘进行组合，组合成人脸一些局部特征，比如眼睛、鼻子、嘴巴等。
  - 神经网络第三层是将这些局部特征组合起来，融合成人脸的模样。
  可以看出：随着层数由浅到深，神经网络提取的特征也是从边缘到局部特征到整体，由简单到复杂。 可见，如果隐藏层足够多，那么能够提取的特征就越丰富、越复杂，模型的准确率就会越高。
- 例子：语音识别
  - 浅层的神经元能够检测一些简单的音调；
  - 较深的神经元能够检测出基本的音素；
  - 更深的神经元就能够检测出单词信息。
  - 如果网络够深，还能对短语、句子进行检测。

$\color{red}总结$ ：

神经网络从左到右，神经元提取的特征从简单到复杂。
特征复杂度与神经网络层数正相关。
特征越来越复杂，功能也越来越强大。

计算量（电路理论）的角度
计算逻辑输出：
$y=x_1\oplus x_2\oplus x_3\oplus\cdots\oplus x_n$
其中， $\oplus$ 表示异或操作。对于这个逻辑运算。用下图两种方法：
- 左图：深度网络，深度网络的结构是每层将前一层的两两单元进行异或，最后到一个输出。这样，整个深度网络的层数是 $log_2(n)$ ，不包含输入层。总共使用的神经元个数为：
  $1+2+\cdots+2^{log_2(n)-1}=1\cdot\frac{1-2^{log_2(n)}}{1-2}=2^{log_2(n)}-1=n-1$
  可见，输入个数是 $n$ ，这种深层网络所需的神经元个数仅仅是 $n - 1$ 个。
- 右图：单个隐藏层，那么需要的神经元个数将是指数级别那么大。由于包含了所有的逻辑位（0和1），则需要 $2^{n}-1$ 个神经元。也就是 $O(2^{n})$ 。
比较下来，处理同一逻辑问题，深层网络所需的神经元个数比浅层网络要少很多。这也是深层神经网络的优点之一。

尽管深度学习有着非常显著的优势，对实际问题进行建模时，尽量先选择层数少的神经网络模型，这也符合奥卡姆剃刀定律（Occam’s Razor）。对于比较复杂的问题，再使用较深的神经网络模型。

4.5 搭建神经网络块（Building blocks of deep neural networks）

本节用流程块图来解释神经网络正向传播和反向传播过程。

对于第 $l$ 层的流程快
- 正向传播
  - 输入： $a^{[l-1]}$
  - 输出： $a^{[l]}$
  - 参数： $W^{[l]},b^{[l]}$
  - 缓存变量： $z^{[l]}$
- 反向传播
  - 输入： $da^{[l]}$
  - 输出： $da^{[l-1]},dW^{[l]},db^{[l]}$
  - 参数： $W^{[l]},b^{[l]},dz^{[l]}$
  - 缓存变量： $dW^{[l]},db^{[l]}$
神经网络整体的流程块图
- 正向传播(单个样本)
  $\begin{array}{l}{z}^{[l]}={W}^{[l]}\cdot {a}^{[l-1]}+{b}^{[l]}\\ {a}^{[l]}={g}^{[l]}({z}^{[l]})\;\; l=0,..,L\end{array}$
- 反向传播(单个样本)
  $\begin{array}{l}d{{z}^{[l]}}=d{{a}^{[l]}}*{{g}^{[l]}}'( {{z}^{[l]}})\\ d{{w}^{[l]}}=d{{z}^{[l]}}\cdot{{a}^{[l-1]}}\\ d{{b}^{[l]}}=d{{z}^{[l]}}\\ d{{a}^{[l-1]}}={{w}^{\left[ l \right]T}}\cdot {{dz}^{[l]}}\\ d{{z}^{[l]}}={{w}^{[l+1]T}}d{{z}^{[l+1]}}\cdot \text{ }{{g}^{[l]}}'( {{z}^{[l]}})\end{array}$
  其中 ${g^{[l]}}'()$ 表示激活函数的导数。
- 最后整体迭代
  从 $a^{[0]}$ 开始，也就是 $x$ 然后经过一系列正向传播计算得到 $\hat y$ ，之后再用输出值计算这个（第二行最后方块），再实现反向传播，计算每次迭代的 $W ， b$ 。
  $\begin{array}{l}W=W-αdW\\ b=b-αdb\end{array}$

4.6 前向传播和反向传播（Forward and backward propagation）

接着上一部分流程块图的内容，列出单样本和 $m$ 个样本的式子。

正向传播
- 单样本
  输入是 $a^{[l-1]}$ ，输出是 $a^{[l]}$ ，缓存变量是 $z^{[l]}$ 。其表达式如下：
  $\begin{array}{l}z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]}\\ a^{[l]}=g^{[l]}(z^{[l]})\;\; l=1,..,L\end{array}$
- $m$ 个训练样本
  向量化形式为：
  $\begin{array}{l}Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}\\ A^{[l]}=g^{[l]}(Z^{[l]})\end{array}$
反向传播
- 单样本
  输入是 $da^{[l]}$ ，输出是 $da^{[l-1]},dw^{[l]},db^{[l]}$ 。其表达式如下：
  $\begin{array}{l}dz^{[l]}=da^{[l]}\ast g^{[l]’}(z^{[l]})\\ dW^{[l]}=dz^{[l]}\cdot a^{[l-1]}\\ db^{[l]}=dz^{[l]}\\ da^{[l-1]}=W^{[l]T}\cdot dz^{[l]}\end{array}$
  上述 ‘表达式4’ 可得 $da^{[l]}=W^{[l+1]T}\cdot dz^{[l+1]}$ ，将 $da^{[l]}$ 代入 ‘表达式1’ 中可得：
  $\color{red}dz^{[l]}=W^{[l+1]T}\cdot dz^{[l+1]}\ast g^{[l]’}(z^{[l]})$
  该式反映了 $\color{red}dz^{[l+1]}$ 与 $\color{red}dz^{[l]}$ 的递推关系。
- m个训练样本
  向量化形式为：
  $\begin{array}{l}dZ^{[l]}=dA^{[l]}\ast g^{[l]’}(Z^{[l]})\\ dW^{[l]}=\frac1mdZ^{[l]}\cdot A^{[l-1]T}\\ db^{[l]}=\frac1mnp.sum(dZ^{[l]},axis=1,keepdim=True)\\ dA^{[l-1]}=W^{[l]T}\cdot dZ^{[l]}\\ dZ^{[l]}=W^{[l+1]T}\cdot dZ^{[l+1]}\ast g^{[l]’}(Z^{[l]})\end{array}$
  其中 ${g^{[l]}}'()$ 表示激活函数的导数。

4.7 参数VS超参数（Parameters vs Hyperparameters）

什么是超参数？
- 在前面算法中的learning rate $a$ （学习率）、iterations(梯度下降法循环的数量)、 $L$ （隐藏层数目）、 ${{n}^{[l]}}$ （隐藏层单元数目）、choice of activation function（激活函数的选择）都需要你来设置，这些数字实际上控制了最后的参数 $W$ 和 $b$ 的值，所以它们被称作 $\color{red}超参数$ 。
- 之后我们也会介绍一些其他的超参数，如momentum、mini batch size、regularization parameters等。
寻找超参数的最优值
- 总思路
  走Idea—Code—Experiment—Idea这个循环，尝试各种不同的参数。
- 刚开始应用于新问题的人们，去试一定范围的值看看结果如何。
- 常用最优模型的参数，也可能会因为电脑CPU、GPU、网络和数据都在变化，最优参数也会发生变化。因此每隔一段时间也要进行调节。

4.8 深度学习和大脑的关联性（What does this have to do with the brain?）

在这里插入图片描述
根据以前降低内容进行了更正，不对地方请指正。

人脑神经元的结构和处理方式要复杂的多，神经网络模型只是非常简化的模型。人脑如何进行学习？是否也是通过反向传播和梯度下降算法现在还不清楚，可能会更加复杂。
也许发现重要的新的人脑学习机制后，让我们的神经网络模型抛弃反向传播和梯度下降算法，能够实现更加准确和强大的神经网络模型！

总结

在这里插入图片描述

左上：神经网络的参数化容量随层数增加而指数式地增长，即某些深度神经网络能解决的问题，浅层神经网络需要相对的指数量级的计算才能解决。
左下： CNN 的深度网络可以将底层的简单特征逐层组合成越来越复杂的特征，深度越大，其能分类的图像的复杂度和多样性就越大。RNN 的深度网络也是同样的道理，可以将语音分解为音素，再逐渐组合成字母、单词、句子，执行复杂的语音到文本任务。
右边：深度网络的特点是需要大量的训练数据和计算资源，其中涉及大量的矩阵运算，可以在 GPU 上并行执行。还包含了大量的超参数，例如学习率、迭代次数、隐藏层数、激活函数选择、学习率调整方案、批尺寸大小、正则化方法等。