3.1 神经网络概览-深度学习-Stanford吴恩达教授

最新推荐文章于 2023-10-25 13:49:51 发布

Zhao-Jichao

最新推荐文章于 2023-10-25 13:49:51 发布

阅读量6.7k

点赞数 18

分类专栏：深度学习DL 文章标签：神经网络深度学习机器学习人工智能卷积神经网络

本文链接：https://blog.csdn.net/weixin_36815313/article/details/105338645

版权

深度学习DL 专栏收录该内容

206 篇文章 2952 订阅

订阅专栏

←上一篇	↓↑	下一篇→
2.19 总结习题	回到目录	3.2 神经网络表示

神经网络概览 (Neural Networks Overview)

本周你将学习如何实现一个神经网络。在我们深入学习具体技术之前，我希望快速的带你预览一下本周你将会学到的东西。如果这个视频中的某些细节你没有看懂你也不用担心，我们将在后面的几个视频中深入讨论技术细节。

现在我们开始快速浏览一下如何实现神经网络。上周我们讨论了逻辑回归，我们了解了这个模型如何与下面公式建立联系。

在这里插入图片描述

$\left.\begin{matrix} x \\ w \\ b \end{matrix}\right\}\rightarrow z=w^Tx+b$

如上所示，首先你需要输入特征 $x$ ，参数 $w$ 和 $b$ ，通过这些你就可以计算出 $z$ ，

$\left.\begin{matrix} x \\ w \\ b \end{matrix}\right\}\rightarrow z=w^Tx+b\rightarrow a=\sigma(z) \\ \rightarrow L(a,y)$

接下来使用就可以计算出 $a$ 。我们将的符号换为表示输出 $\hat{y}\rightarrow a=\sigma(z)$ ,然后可以计算出loss function $L (a, y)$

神经网络看起来是如下这个样子。正如我之前已经提到过，你可以把许多sigmoid单元堆叠起来形成一个神经网络。对于图3.1.1中的节点，它包含了之前讲的计算的两个步骤：首先通过公式3.1计算出值 $z$ ，然后通过 $\sigma(z)$ 计算值 $a$ 。

在这里插入图片描述

在这个神经网络（图3.1.2）对应的3个节点，首先计算第一层网络中的各个节点相关的数 $z^{[1]}$ ，接着计算 $a^{[1]}$ ，在计算下一层网络同理；我们会使用符号 $^{[m]}$ 表示第 $m$ 层网络中节点相关的数，这些节点的集合被称为第 $m$ 层网络。这样可以保证 $^{[m]}$ 不会和我们之前用来表示单个的训练样本的 $^{(i)}$ (即我们使用表示第 $i$ 个训练样本)混淆；整个计算过程，公式如下: 公式3.3：

$\left.\begin{matrix} x \\ W^{[1]} \\ b^{[1]} \end{matrix}\right\}\rightarrow z^{[1]}=W^{[1]}x+b^{[1]}\rightarrow a^{[1]}=\sigma(z^{[1]})$

公式3.4：

$\left.\begin{matrix} a^{[1]}=\sigma(z^{[1]}) \\ W^{[2]} \\ b^{[2]} \end{matrix}\right\}\rightarrow z^{[2]}=W^{[2]}a^{[1]}+b^{[2]}\rightarrow a^{[2]}=\sigma(z^{[2]})\\\rightarrow L(a^{[2]},y)$

类似逻辑回归，在计算后需要使用计算，接下来你需要使用另外一个线性方程对应的参数计算 $z^{[2]}$ ，计算 $a^{[2]}$ ，此时 $a^{[2]}$ 就是整个神经网络最终的输出，用 $\hat{y}$ 表示网络的输出。

公式3.5：

$\left.\begin{matrix} da^{[1]}=d\sigma(z^{[1]}) \\ dW^{[2]} \\ db^{[2]} \end{matrix}\right\}\rightarrow dz^{[2]}=d(W^{[2]}a^{[1]}+b^{[2]})\rightarrow da^{[2]}=d\sigma(z^{[2]})\\\rightarrow dL(a^{[2]},y)$

我知道这其中有很多细节，其中有一点非常难以理解，即在逻辑回归中，通过直接计算 $z$ 得到结果 $a$ 。而这个神经网络中，我们反复的计算 $z$ 和 $a$ ，计算 $a$ 和 $z$ ，最后得到了最终的输出loss function。

你应该记得逻辑回归中，有一些从后向前的计算用来计算导数 $d a 、 d z$ 。同样，在神经网络中我们也有从后向前的计算，看起来就像这样，最后会计算 $da^{[2]}、dz^{[2]}$ ，计算出来之后，然后计算 $dW^{[2]}、db^{[2]}$ 等，按公式3.4、3.5箭头表示的那样，从右到左反向计算。