3.4 多个例子中的向量化-深度学习-Stanford吴恩达教授-CSDN博客

本文链接：https://blog.csdn.net/weixin_36815313/article/details/105339061

←上一篇	↓↑	下一篇→
3.3 计算神经网络的输出	回到目录	3.5 向量化实现的解释

多个例子中的向量化 (Vectorizing across Multiple Examples)

在上一个视频，了解到如何针对于单一的训练样本，在神经网络上计算出预测值。

在这个视频，将会了解到如何向量化多个训练样本，并计算出结果。该过程与你在逻辑回归中所做类似。

逻辑回归是将各个训练样本组合成矩阵，对矩阵的各列进行计算。神经网络是通过对逻辑回归中的等式简单的变形，让神经网络计算出输出值。这种计算是所有的训练样本同时进行的，以下是实现它具体的步骤：

在这里插入图片描述

图3.4.1

上一节视频中得到的四个等式。它们给出如何计算出 $z^{[1]}，a^{[1]}，z^{[2]}，a^{[2]}$ 。

对于一个给定的输入特征向量 $X$ ，这四个等式可以计算出 $a^{[2]}$ 等于 $\hat{y}$ 。这是针对于单一的训练样本。如果有 $m$ 个训练样本,那么就需要重复这个过程。

用第一个训练样本 $x^{[1]}$ 来计算出预测值 $\hat{y}^{[1]}$ ，就是第一个训练样本上得出的结果。

然后，用 $x^{[2]}$ 来计算出预测值 $\hat{y}^{[2]}$ ，循环往复，直至用 $x^{[m]}$ 计算出 $\hat{y}^{[m]}$ 。

用激活函数表示法，如上图左下所示，它写成 $a^{[2](1)}、a^{[2](2)}$ 和 $a^{[2](m)}$ 。

【注】： $a^{[2](i)}$ ， $(i)$ 是指第 $i$ 个训练样本而 $[2]$ 是指第二层。

如果有一个非向量化形式的实现，而且要计算出它的预测值，对于所有训练样本，需要让 $i$ 从1到 $m$ 实现这四个等式：

$z^{[1](i)}=W^{[1](i)}x^{(i)}+b^{[1](i)}$ $a^{[1](i)}=\sigma(z^{[1](i)})$ $z^{[2](i)}=W^{[2](i)}a^{[1](i)}+b^{[2](i)}$ $a^{[2](i)}=\sigma(z^{[2](i)})$

对于上面的这个方程中的 $^{(i)}$ ，是所有依赖于训练样本的变量，即将 $(i)$ 添加到 $x ， z$ 和 $a$ 。如果想计算 $m$ 个训练样本上的所有输出，就应该向量化整个计算，以简化这列。

本课程需要使用很多线性代数的内容，重要的是能够正确地实现这一点，尤其是在深度学习的错误中。实际上本课程认真地选择了运算符号，这些符号只是针对于这个课程的，并且能使这些向量化容易一些。

所以，希望通过这个细节可以更快地正确实现这些算法。接下来讲讲如何向量化这些：公式3.12：

$x=\left[ \begin{matrix} \vdots & \vdots &\vdots & \vdots \\ x^{(1)} & x^{(2)} & \cdots & x^{(m)}\\ \vdots & \vdots & \vdots & \vdots \\ \end{matrix} \right]$

公式3.13：

$Z^{[1]}=\left[ \begin{matrix} \vdots & \vdots &\vdots & \vdots \\ z^{[1](1)} & z^{[1](2)} & \cdots & z^{[1](m)} \\ \vdots & \vdots & \vdots & \vdots \\ \end{matrix} \right]$

公式3.14：

$A^{[1]}=\left[ \begin{matrix} \vdots & \vdots &\vdots & \vdots \\ a^{[1](1)} & a^{[1](2)} & \cdots & a^{[1](m)} \\ \vdots & \vdots & \vdots & \vdots \\ \end{matrix} \right]$

公式3.15：

$\left.\begin{matrix} z^{[1](i)}=W^{[1](i)}x^{(i)}+b^{(1)} \\ a^{[1](i)}=\sigma(z^{[1](i)}) \\ z^{[2](i)}=W^{[2](i)}a^{[1](i)}+b^{(2)} \\ a^{[2](i)}=\sigma(z^{[2](i)}) \\ \end{matrix}\right\} \Rightarrow \left \{\begin{matrix} A^{[1]}=\sigma(z^{[1]}) \\ z^{[2]}=W^{[2]}A^{[1]}+b^{[2]} \\ A^{[2]}=\sigma(z^{[2]}) \\ \end{matrix}\right.$