机器学习：神经网络正向传播与反向传播的向量化推导

最新推荐文章于 2023-01-15 16:30:22 发布

ShadyPi

最新推荐文章于 2023-01-15 16:30:22 发布

阅读量597

点赞数 2

分类专栏：机器学习文章标签：神经网络机器学习深度学习

本文链接：https://blog.csdn.net/ShadyPi/article/details/122667768

版权

机器学习专栏收录该内容

29 篇文章 9 订阅

订阅专栏

文章目录

向量化终极技巧
神经网络架构
正向传播
反向传播

虽然吴恩达推荐在第一次实现神经网络的时候用 for循环挨个挨个传入样本正向传播反向传播，每次累加误差与隐藏层的成绩来计算梯度，但我不满意呀，妥妥能向量化的东西，怎么能用 for循环呢？我直接进行一个向量化神经网络传播的推导。

向量化终极技巧

当你不知道矩阵该怎么运算的时候，直接把线性式按照遵循矩阵运算规则的形式替换一下，一般就是对的。

神经网络架构

这里使用的是吴恩达机器学习ex4里的架构：
在这里插入图片描述
分为三层，输入层、隐藏层与输出层。输入层为400个单元分别对应手写数字图片中的400个像素，隐藏层有25个单元，输出层有10个单元对应10个数字。

输入矩阵 $X$ 为5000×400的矩阵，包含5000张手写数字图片，每张图片有20×20=400个像素。
$X=\left[\begin{matrix} -(x^{(1)})^T-\\ -(x^{(2)})^T-\\ \vdots\\ -(x^{(m)})^T-\\ \end{matrix}\right]$

对于答案矩阵 $y$ ，我们需要处理一下， $y$ 本来是m×1的列向量， $y^{(i)}$ 为第 $i$ 张图片上的数字。现在我们要把它转化成与我们神经网络的输出相同的格式，即若第 $i$ 张图片上是4，则我们期望的神经网络输出是
$a^{(3)}= \left[\begin{matrix} 0\\ 0\\ 0\\ 1\\ 0\\ 0\\ 0\\ 0\\ 0\\ 0\\ \end{matrix}\right]$
由此，我们把列向量 $y$ 转换成 $m\times s_L$ 的矩阵，包含m个样本我们期望的神经网络输出。

参数矩阵遵循原定义， $\Theta^{(l)}=s_{l+1}\times(s_l+1)$ ，为 $l + 1$ 层从 $l$ 层转移的权值。

正向传播

向前传播比较简单，因为每一层的激励矩阵都是 $m\times s_l$ 的，我们首先在左侧为矩阵加上偏置（一列1），矩阵变为 $m\times(s_l+1)$ 的，要传播到下一层，就乘以参数矩阵的转置再通过逻辑函数，即
$a^{(l+1)}=g([1\quad a^{(l)}]\Theta^{(l)})$
因为只有一个隐藏层，所以传播两次就到了输出层，得到一个 $m\times s_L$ 的矩阵。

反向传播

代价函数

正好我们的目标矩阵 $y$ 也是 $m\times s_L$ 的，两个矩阵之间每行元素都对应一个样本，所以我们套用代价函数公式：
$J(\Theta)=-\frac{1}{m}\sum_{i=1}^m\sum_{k=1}^K[y_k^{(i)}\log((h_\Theta(x^{(i)}))_k)+(1-y_k^{(i)})\log(1-(h_\Theta(x^{(i)}))_k)]+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_{l+1}}(\Theta_{ji}^{(l)})^2$
这里 $y_k^{(i)}$ 和 $h_\Theta(x^{(i)})_k$ 都是对应相乘的，很显然我们这里要改成矩阵形式的话就应该使用点乘，求和用sum函数，所以有
$J(\Theta)=-\frac{1}{m}[\text{sum}(y.*\log(a^{(3)}))+\text{sum}((1-y).*(\log(1-a^{(3)})))]+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_{l+1}}(\Theta_{ji}^{(l)})^2$
后面的正则项直接按项平方后求和即可，注意偏置项不参与正则化，如果用矩阵整个运算的话，要记得把第一列减掉。

误差传播

为了计算梯度，我们先算误差。输出层的误差很好求，直接 $a^{(3)}$ 与 $y$ 相减再转置一下：
$\delta^{(3)}=(a^{(3)}-y)^T$
得到一个 $s_L\times m$ 的矩阵。之所以要转置，是因为之前在推单个样本的反向传播时， $\delta$ 都是 $s_L\times 1$ 的列向量，为了更好的套用公式，所以转置一下让每个样本的 $\delta$ 仍为列向量。

误差传播公式为
$\delta^{(l)}=((\Theta^{(l)})^T\delta^{(l+1)}).*a^{(l)}.*(1-a^{(l)})$
而 $\Theta^{(l)}$ 为 $s_{l+1}\times(s_l+1)$ 的矩阵，所以完美符合上面的公式，我们把 $\Theta^{(l)}$ 转置一下跟 $\delta^{(l+1)}$ 相乘，得到一个 $(s_l+1)\times m$ 的矩阵。至于后面的点乘部分，加上了偏置项的 $a^{(l)}$ 是 $m\times (s_l+1)$ 的，我们转置一下再按位相乘即可。这样我们就完成了一次误差的反向传播！

但是，还有一件很重要的事情，我们是不计算偏置项的误差的，因为偏置项都恒为 $+ 1$ ，改变的是系数矩阵，所以我们要去掉除 $\delta^{(L)}$ 外所有误差矩阵的第一行，最后 $\delta^{(l)}$ 是 $s_l\times m$ 的。

计算梯度

要计算梯度，先计算 $\Delta^{(l)}$ ，单个样本的计算式为
$\Delta^{(l)}:=\Delta^{(l)}+\delta^{(l+1)}(a^{(l)})^T$
这里 $\delta^{(l+1)}$ 和 $a^{(l)}$ 都是列向量，所以需要转置一下 $a^{(l)}$ ，但在上面的计算中 $a^{(l)}$ 是 $m\times (s_l+1)$ 的矩阵， $\delta^{(l+1)}$ 是 $s_{l+1}\times m$ 的矩阵，正好每个样本的 $\delta^{(l+1)}$ 竖着放， $a^{(l)}$ 横着放，所以我们不需要转置，直接相乘即可，还顺便完成了求和工作，即
$\Delta^{(l)}=\delta^{(l+1)}a^{(l)}$
非常的简洁。

有了 $\Delta$ ，剩下的工作就很简单了，由
$\frac{\partial}{\partial\Theta_{ij}^{(l)}}J(\Theta)=D_{ij}^{(l)}=\left\{ \begin{aligned} &\frac{1}{m}(\Delta_{ij}^{(l)}+\lambda\Theta_{ij}^{(l)})&&j\not=0\\ &\frac{1}{m}\Delta_{ij}^{(l)}&&j=0\\ \end{aligned}\right.$
我们将 $\Delta$ 矩阵除以 $m$ ，再给需要正则化的参数加上正则项，就得到了梯度。