【Course1】3 One hidden layer Neural Network

ZhuYuxi333

已于 2023-05-22 14:41:06 修改

阅读量209

点赞数

文章标签：机器学习深度学习人工智能

于 2023-05-19 20:26:39 首次发布

本文链接：https://blog.csdn.net/weixin_42904738/article/details/130761357

版权

Neural Network Representation

Computing a Neural Network’s Output

第 $l$ 层的第 $i$ 个神经元（单个样本）：

参数： $w_i^{[l]}=\begin{bmatrix}w_1^{[l]} \\ w_2^{[l]} \\ \vdots \\ w_{n^{[l-1]}}^{[l]}\end{bmatrix}, b_i^{[l]}$
输入： $a^{[l-1]}, shape = (n^{[l-1]}, 1)$
执行两步计算：
1. $z_i^{[l]} = w_i^{[l]T}a^{[l-1]}+b_i^{[l]}$
2. $a_i^{[l]} = \sigma{(z_i^{[l]})}$
输出： $a_i^{[l]}, scalar$

第 $l$ 层（单个样本）

非矢量化

$z_1^{[l]} = w_1^{[l]T}a^{[l-1]}+b_1^{[l]}, a_1^{[l]} = \sigma{(z_1^{[l]})}\\ z_2^{[l]} = w_2^{[l]T}a^{[l-1]}+b_2^{[l]}, a_2^{[l]} = \sigma{(z_2^{[l]})}\\ \vdots \\ z_{n^{[l]}}^{[l]} = w_{n^{[l]}}^{[l]T}a^{[l-1]}+b_{n^{[l]}}^{[l]}, a_{n^{[l]}}^{[l]} = \sigma{(z_{n^{[l]}}^{[l]})}$

不同的下标对应某一层中不同的神经元，这组公式实际上是对该层的每一个神经元都执行了相同的计算，下标 $i$ 从 $1$ 变化到 $n^{[l]}$ 分别对应该层的第 $1$ 到第 $n^{[l]}$ 个神经元。

在这里插入图片描述

矢量化

这一步矢量化的目的是让每一层的所有神经元同时进行计算，也就是将上面的 $n^{[l]}$ 个公式合为一个，也就是与“层”相关的矢量化。

矢量化的方法：将与“层”相关的量—— w, b 一行一行地堆叠起来 / 按行排列 (stack by column)
$W^{[l]} = \begin{bmatrix} --w_1^{[l]T}--\\ --w_2^{[l]T}--\\ \vdots \\ --w_{n^{[l]}}^{[l]T}-- \end{bmatrix}, b^{[l]} = \begin{bmatrix} b_1^{[l]} \\ b_2^{[l]} \\ \vdots \\ b_{n^{[l]}}^{[l]} \end{bmatrix}$

记号

与样本相关的量：x, z, a (stack by column)
$\begin{aligned} &X = A^{[0]} = \begin{bmatrix} | & | & ... & | \\ x^{(1)} & x^{(2)} & ... & x^{(m)} \\ | & | & ... & | \end{bmatrix}\\ &Z^{[l]} = \begin{bmatrix} | & | & ... & | \\ z^{[l](1)} & z^{[l](2)} & ... & z^{[l](m)}\\ | & | & ... & | \end{bmatrix}\\ &A^{[l]} = \begin{bmatrix} | & | & & | \\ a^{[l-1](1)} & a^{[l-1](2)} & ... & a^{[l-1](m)} \\ | & | & & | \end{bmatrix} \end{aligned}$

第 $l$ 层的前向传播计算公式

$\begin{aligned} Z^{[l]} &= W^{[l]}A^{[l-1]}+b^{[l]}\\ &=\begin{bmatrix} --w_1^{[l]T}--\\ --w_2^{[l]T}--\\ \vdots \\ --w_{n^{[l]}T}^{[l]}-- \end{bmatrix} \begin{bmatrix} | & | & & | \\ a^{[l-1](1)} & a^{[l-1](2)} & ... & a^{[l-1](m)} \\ | & | & & | \end{bmatrix} +\begin{bmatrix} b_1^{[l]} \\ b_2^{[l]} \\ \vdots \\ b_{n^{[l]}}^{[l]} \end{bmatrix}\\ &=\begin{bmatrix} w_1^{[l]T}a^{[l-1](1)} & ... & w_1^{[l]T}a^{[l-1](m)} \\ w_2^{[l]T}a^{[l-1](1)} & ... &w_2^{[l]T}a^{[l-1](m)}\\ \vdots & ...&\vdots\\ w_{n^{[l]}}^{[l]}a^{[l-1](1)} &...& w_{n^{[l]}}^{[l]}a^{[l-1](m)} \end{bmatrix} +\begin{bmatrix} b_1^{[l]} & ... & b_1^{[l]}\\ b_2^{[l]} & ... & b_2^{[l]}\\ \vdots & ... & \vdots\\ b_{n^{[l]}}^{[l]} & ... & b_{n^{[l]}}^{[l]} \end{bmatrix}\\ &=\begin{bmatrix} w_1^{[l]}a^{[l-1](1)}+b_1^{[l]} & ... & w_1^{[l]}a^{[l-1](m)}+b_1^{[l]}\\ w_2^{[l]}a^{[l-1](1)}+b_2^{[l]} & ... & w_2^{[l]}a^{[l-1](m)}+b_2^{[l]}\\ \vdots & ... & \vdots\\ w_{n^{[l]}}^{[l]}a^{[l-1](1)}+b_{n^{[l]}}^{[l]} & ... & w_{n^{[l]}}^{[l]}a^{[l-1](m)}+b_{n^{[l]}}^{[l]} \end{bmatrix}\\ &=\begin{bmatrix} z_1^{[l](1)} & ... & z_1^{[l](m)}\\ z_2^{[l](1)} & ... & z_1^{[l](m)}\\ \vdots & ... & \vdots\\ z_{n^{[l]}}^{[l](1)} & ... & z_{n^{[l]}}^{[l](m)} \end{bmatrix}\\ &=\begin{bmatrix} | & | & ... & | \\ z^{[l](1)} & z^{[l](2)} & ... & z^{[l](m)}\\ | & | & ... & | \end{bmatrix} \end{aligned}\\$
$\begin{aligned} A^{[l]} &= \sigma (Z^{[l]}) \\ &= \sigma (\begin{bmatrix} | & | & ... & | \\ z^{[l](1)} & z^{[l](2)} & ... & z^{[l](m)}\\ | & | & ... & | \end{bmatrix}) \\ &=\begin{bmatrix} | & | & ... & | \\ \sigma(z^{[l](1)}) & \sigma(z^{[l](2)}) & ... & \sigma(z^{[l](m)})\\ | & | & ... & | \end{bmatrix}\\ &=\begin{bmatrix} | & | & & | \\ a^{[l-1](1)} & a^{[l-1](2)} & ... & a^{[l-1](m)} \\ | & | & & | \end{bmatrix} \end{aligned}$

整个神经网络的前向传播计算公式

$A^{[0]} = X = \begin{bmatrix} | & | & ... & | \\ x^{(1)} & x^{(2)} & ... & x^{(m)} \\ | & | & ... & | \end{bmatrix} \\ Z^{[1]} = W^{[1]}A^{[0]}+b^{[1]}, A^{[1]} = \sigma (Z^{[1]}) \\ Z^{[2]} = W^{[2]}A^{[1]}+b^{[2]}, A^{[2]} = \sigma (Z^{[2]}) \\ \vdots \\ Z^{[l]} = W^{[l]}A^{[l-1]}+b^{[l]}, A^{[l]} = \sigma (Z^{[l]})$