吴恩达《深度学习专项》笔记+代码实战（四）：深度神经网络（全连接网络）

最新推荐文章于 2024-07-25 13:37:16 发布

大局观选手周弈帆

最新推荐文章于 2024-07-25 13:37:16 发布

阅读量405

点赞数 2

分类专栏：吴恩达深度学习文章标签：深度学习 dnn 神经网络机器学习 python

本文链接：https://blog.csdn.net/a119334/article/details/125116491

版权

体验完了“浅度”神经网络后，我们终于等到了这门课的正题——深度神经网络了。

其实这节课并没有引入太多新的知识，只是把上节课的2层网络拓展成了L层网络。对于编程能力强的同学（或者认真研究了我上节课的编程实战代码的同学，嘿嘿嘿），学完了上节课的内容后，就已经有能力完成这节课的作业了。

课堂笔记

深度神经网络概述与符号标记

请添加图片描述

所谓深度神经网络，只是神经网络的隐藏层数量比较多而已，它的本质结构和前两课中的神经网络是一样的。让我们再复习一下神经网络中的标记：

请添加图片描述

$L$ 表示网络的层数。

在这个网络中， $L = 4$ 。（注意：输入层并不计入层数，但可以用第“0”层称呼输入层）

上标中括号的标号 $\in [0, L])$ 表示和第 $l$ 层相关的数据。比如, $n^{[l]}$ 是神经网络第 $l$ 层的神经元数（即每层输出向量的长度）。

这幅图里 $n^{[1]}=5$ , $n^{[3]}=3$ ，以此类推。值得注意的是， $n^{[0]}=n_x=3$ 。回想第二课的知识， $n_x$ 是输入向量的长度。

再比如， $a^{[l]}$ 是第 $l$ 层的输出向量。 $a^{[l]}=g^{[l]}(z^{[l]})$ ，其中 $g^{[l]}$ 是第 $l$ 层的激活函数， $z^{[l]}$ 是第 $l$ 层的中间运算结果。 $W [l], b [l]$ 是第 $l$ 层的参数。

和上节课的单隐层神经网络类似，对于 $L$ 层的网络，我们如下方法对单样本做前向传播（推理）：

$\begin{aligned} a^{[l]} & \gets g^{[l]}(W^{[l]}a^{[l - 1]}+b^{[l]}) \\ for \ l & \in [1, 2, ... L] \end{aligned}$

其中，输入输出分别为： $x=a^{[0]}, \hat{y}=a^{[L]}$ 。

当我们考虑全体样本 $X, Y$ 时，上面的算式可以写成：

$\begin{aligned} A^{[l]} & \gets g^{[l]}(W^{[l]}A^{[l - 1]}+b^{[l]}) \\ for \ l & \in [1, 2, ... L] \end{aligned}$

其中，输入输出分别为： $X=A^{[0]}, \hat{Y}=A^{[L]}$ 。

从公式上看，使用向量化计算全体样本只是把小写字母换成了大写字母而已。用代码实现时，我们甚至也只需要照搬上述公式就行。但我们要记住，全体样本是把每个样本以列向量的形式横向堆叠起来，堆成了一个矩阵。我们心中对 $X, Y$ 的矩阵形状要有数。

在实现深度神经网络时，我们不可避免地引入了一个新的for循环：循环遍历网络的每一层。这个for循环是无法消除的。要记住，我们要消除的for循环，只有向量化计算中的for循环。它们之所以能被消除，是因为向量化计算可以使用并行加速，而不是for循环本身有问题。我们甚至可以把“向量化加法”、“向量化乘法”这些运算视为最小的运算单元。而在写其他代码时，不用刻意去规避for循环。

参数矩阵的形状是：