多层感知机的反向传播算法

最新推荐文章于 2023-12-26 14:51:04 发布

cute_Lily

最新推荐文章于 2023-12-26 14:51:04 发布

阅读量2.6k

点赞数 2

分类专栏： # 神经网络

本文链接：https://blog.csdn.net/coffee_cream/article/details/108812497

版权

本文介绍了多层感知机的反向传播算法，包括基本概念、损失函数（平方误差和交叉熵）及其适用场景，以及反向传播过程中参数更新的梯度计算公式。通过讲解，阐述了为何交叉熵损失函数更适用于分类任务，而平方误差损失函数更适合连续输出。文章还详细推导了反向传播算法中的关键公式，为理解和实现神经网络的反向传播提供了理论基础。

摘要由CSDN通过智能技术生成

1 基本概念

前向传播

多层感知机中，输入信号通过各个网络层的隐节点产生输出的过程称为前向传播。

图形化表示

下图展示了一个典型的多层感知机

定义第 $(l)$ 层的输入为 $x^{(l)}$
在每一层中
- 首先利用输入 $x^{(l)}$ 计算仿射变换 $z^{(l)}=W^{(l)} x^{(l)} + b^{(l)}$
- 然后激活函数 $f$ 作用于 $z^{(l)}$ ，得到 $a^{(l)}=f(z^{(l)})$
- $a^{(l)}$ 直接作为下一层的输入，即 $x^{(l+1)}$

设 $x^{(l)}$ 为 $m$ 维向量， $z^{(l)}$ 和 $a^{(l)}$ 为 $n$ 维向量，则 $W^{(l)}$ 为 $m\times n$ 维的矩阵，这里分别用 $z^{(l)}_i$ 、 $a^{(l)}_i$ 和 $W^{(l)}_{ij}$ 表示其中的一个元素。

多层感知机结构图
反向传播算法

在网络训练中，前向传播最终产生一个标量损失函数。
反向传播算法（ Back Propagation ） 则将损失函数的信息沿网络层向后传播用以计算梯度，达到优化网络参数的目的。反向传播算法是多层神经网络有监督训练中最简单也最一般的方法之一。

2 多层感知机的损失函数

给定包含 $m$ 个样本的集合 $\{(x^{(1)},y^{(1)}),\cdots,(x^{(m)},y^{(m)}\}$ ，假设多层感知机的层数（layer）为 $N$ ，在第 $l$ 层的神经节点数目为 $s_l$

2.1 平方误差损失函数

$\begin{aligned} J(W,b) &= [\frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)})] + \frac{\lambda}{2} \sum_{l=1}^{N-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_l+1} (W_{ij}^{(l)})^2 \\ &= [\frac{1}{m} \sum_{i=1}^m \frac{1}{2} \| y^{(i)}-f_{w,b}(x^{(i)}) \|^2] + \frac{\lambda}{2} \sum_{l=1}^{N-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{(l+1)}} (W_{ij}^{(l)})^2 \end{aligned}$

第一项为平方误差项；
第二项为 L2 正则化项，在功能上可以称作权重衰减项，目的是减少权重的幅度，防止过拟合，其中 $W_{ij}^{(l)}$ 指的是第 $l$ 层神经网络上的第 $i$ 节点到第 $l + 1$ 层神经网络上的第 $j$ 个节点的权重；
第二项前面的系数 $\lambda$ 为权重衰减参数，用于控制损失函数中两项的相对权重。