week3-part1 神经网络概述 Neural Network Overview

kkkobe7

已于 2022-05-28 15:55:12 修改

阅读量77

点赞数 1

文章标签：神经网络深度学习人工智能

于 2022-05-28 15:13:35 首次发布

本文链接：https://blog.csdn.net/apple_52071864/article/details/125018553

版权

在深入神经网络的具体细节之前，我们先快速浏览一下本周的内容。上一周我们讨论了逻辑回归，了解了这个模型（下图左）如何与下面的公式（下图右）建立联系。

如上所示，首先你需要输入特征 $x$ ，参数 $w$ 和 $b$ ，通过这些你就可以计算出 $z$ 。
$\begin{aligned} &\left.\begin{array}{l} x \\ w \\ b \end{array}\right\} \Longrightarrow z=w^{T} x+b \Longrightarrow \alpha=\sigma(z) \Longrightarrow L(a, y) \end{aligned}$

接下来就可以计算出 $a$ 。我们将符号 $\alpha$ 换为 $a$ 表示输出 $\hat{y} \Rightarrow a = \sigma(z)$ ，然后可以计算出损失函数loss function $L (a, y)$ 。

神经网络看起来是如下图这个样子，我们将许多sigmoid单元堆叠起来形成一个神经网络。对于其中的节点，它包含了之前讲的计算的两个步骤：首先通过公式计算出值 $z$ ，然后通过 $\sigma(z)$ 计算值 $a$ 。

在这个神经网络对应的3个节点，首先计算第一层网络中的各个节点相关的数 $z^{[1]}$ ，接着计算 $\alpha^{[1]}$ ，在计算下一层网络同理。在这里，我们使用符号 $^{[m]}$ 表示第 $m$ 层网络中节点相关的数，这些节点的集合被称为第 $m$ 层网络。这样可以保证 $^{m}$ 不会和我们之前用来表示单个的训练样本的 $^{(i)}$ （即我们用来表示第 $i$ 个训练样本）混淆。

整个计算过程如下
$\left.\begin{array}{r} x \\ W^{[1]} \\ b^{[1]} \end{array}\right\} \Longrightarrow z^{[1]}=W^{[1]} x+b^{[1]} \Longrightarrow a^{[1]}=\sigma\left(z^{[1]}\right)$

$\left.\begin{array}{r} x \\ d W^{[1]} \\ d b^{[1]} \end{array}\right\} \Leftarrow d z^{[1]}=d\left(W^{[1]} x+b^{[1]}\right) \Leftarrow d \alpha^{[1]}=d \sigma\left(z^{[1]}\right)$

类似逻辑回归，在向前计算后需要向后计算，接下来你需要使用另外一个线性方程对应的参数计算 $z^{[2]}$ ，计算 $a^{[2]}$ ，此时 $a^{[2]}$ 就是整个神经网络最终的输出，用 $\hat{y}$ 表示。
$\begin{aligned} &\left.\begin{array}{r} d a^{[1]}=d \sigma\left(z^{[1]}\right) \\ d W^{[2]} \\ d b^{[2]} \end{array}\right\} \Longleftarrow d z^{[2]}=d\left(W^{[2]} \alpha^{[1]}+b^{[2]}\right) \Longleftarrow d a^{[2]}=d \sigma\left(z^{[2]}\right) \Longleftarrow d L\left(a^{[2]}, y\right) \end{aligned}$
在这个神经网络中，我们反复的计算 $z$ 和 $a$ ，计算 $a$ 和 $z$ ，最后得到了最终输出loss function。

你应该记得逻辑回归中，有一些从后向前的计算用来计算导数 $d a 、 d z$ 。同样，在神经网络中我们也有从后向前的计算，看起来就像之前的公式一样，最后会计算 $da^{[2]}、dz^{[2]}$ ，计算出来之后，然后计算 $dw^{[2]} 、 db^{[2]}$ 等，如公式中的箭头一样，从右到左反向计算。