深度前馈网络（四）

最新推荐文章于 2024-05-20 23:56:38 发布

VIP文章 csaemaster

最新推荐文章于 2024-05-20 23:56:38 发布

阅读量295

点赞数 1

文章标签：机器学习人工智能 python

本文链接：https://blog.csdn.net/csaemaster/article/details/125539420

版权

全连接MLP中的反向传播计算

我们考虑一个与全连接多层感知机相关联的特定图，下面第一个算法首先给出了前向传播，它将参数映射到与单个训练样本 $(x, y)$ （输入，目标）相关联的监督损失函数 $L(\hat {y}, y)$ ，其中，戴帽的 $y$ 是神经网络在得到输入 $x$ 后的实际输出。下面第二个算法说明了将反向传播应用于该图所需要的相关计算。

首先讨论第一个算法，即典型深度神经网络中的前向传播和代价函数的计算。为了获得总代价 $J$ ，损失函数 $L(\hat {y}, y)$ 可以加上正则项 $\Omega (\theta )$ ，其中， $\theta$ 包含所有的权重和偏执组成的参数。为了简单起见，该算法仅仅演示使用单个输入样本 $x$ ，实际上应该是小批量的输入。另外，假设网络深度是 $l$ ，则模型的权重矩阵是： $W^{(i)}, i \in \left \{ 1, \cdots , l \right \}$ ，模型的偏执参数是： $b^{(i)}, i \in \left \{ 1, \cdots , l \right \}$ ，那么，该算法如下：

利用输入进行初始化： $h^{(0)} = x$ 。

遍历网络深度 $\cdots , l$ 进行下面的计算：
$a^{(k)} = b^{(k)} + W^{(k)}h^{k-1}$
$h^{(k)} = f(a^{(k)})$

得到神经网络的输出： $\hat {y} = h^{(l)}$ 。

最后获得总代价： $L(\hat {y}, y) + \lambda \Omega (\theta )$

接着讨论第二个算法，该算法说明了如何计算 $J$ 关于参数 $W$ 和 $b$ 的梯度，这是上一个算法的反向计算。它不止使用了输入 $x$ 和目标 $y$ ，该计算对每一层 $k$ 都产生了对激活函数 $a^{(k)}$ 的梯度，从输出层开始，一直向后计算，直到一个隐藏层。这些梯度可以看作对每层的输出应该如何调整从而减小误差的指导，根据这些梯度可以获得对每层参数的梯度。权重和偏置上的梯度可以立即用于随机梯度更新的一部分（梯度算出来后即可执行更新），或者可以与其它基于梯度的优化算法一起使用。算法如下：