机器学习笔记之前馈神经网络(四)反向传播算法[数学推导过程]

最新推荐文章于 2023-12-06 16:40:13 发布

静静的喝酒

最新推荐文章于 2023-12-06 16:40:13 发布

阅读量916

点赞数

分类专栏：深度学习机器学习文章标签：机器学习反向传播算法链式求导法则前馈神经网络深度学习

本文链接：https://blog.csdn.net/qq_34758157/article/details/129764930

版权

机器学习笔记之前馈神经网络——反向传播算法[数学推导过程]

引言

引言

上一节介绍了 $\text{M-P}$ 神经元模型，并介绍了感知机算法 $(\text{Perceptron})$ 的参数调整过程。本节将介绍多层前馈神经网络，并介绍反向传播算法。

回顾：感知机算法

关于感知机算法，它本质上是一个仅包含一个 $\text{M-P}$ 神经元的神经网络模型。以基本逻辑运算与为例，它们对应感知机算法的网络模型表示如下：
需要注意的是，这里的 $x_1,x_2$ 是输入层，它们均表示‘样本特征的随机变量’，因而它们仅是‘接收外部信号的载体’，并不是 $\text{M-P}$ 神经元模型。
基本逻辑运算_(感知机算法)网络模型
对应计算流程表示如下：
$\mathcal Y_{out} = f \left(\mathcal W_1 \cdot x_1 + \mathcal W_2 \cdot x_2 - \theta \right)$
对于上述计算流程中的权重 $\mathcal W_1,\mathcal W_2$ 和阈值 $\theta$ ，可将阈值 $\theta$ 视作一个固定输入的哑结点( $\text{Dummy Node}$ )与对应权重的线性组合，从而使学习过程可统一为权重的学习过程：
$\mathcal Y_{out} = f(\mathcal W_1 \cdot x_1 + \mathcal W_2 \cdot x_2 + \mathcal W_{\text{Dum}} \cdot \underbrace{x_{\text{Dum}}}_{\text{Fixed}})$
关于感知机算法权重学习过程的参数调整使用梯度下降法。针对逻辑计算与，本质上是二分类问题。感知机算法关于策略的构建动机是策略驱动：
$\begin{aligned} & \begin{cases} \mathcal L_{\text{True}}(\mathcal W) = \sum_{(x^{(i)},y^{(i)}) \in \mathcal D} \hat y^{(i)} \left(\mathcal W^Tx^{(i)}\right) \\ \mathop{\arg\max}\limits_{\mathcal W} \mathcal L_{\text{True}}(\mathcal W) \end{cases} \\ & \begin{cases} \mathcal L_{\text{False}}(\mathcal W) = -\sum_{(x^{(i)},y^{(i)}) \in \mathcal D} y^{(i)} \left(\mathcal W^Tx^{(i)}\right) \\ \mathop{\arg\min}\limits_{\mathcal W} \mathcal L_{\text{False}}(\mathcal W) \end{cases} \\ \end{aligned}$
关于感知机权重的调整过程可表示为：
$\begin{aligned} \mathcal W^{(t+1)} & \Leftarrow \mathcal W^{(t)} - \eta \cdot \nabla_{\mathcal W} \mathcal L(\mathcal W) \\ & = \mathcal W^{(t)} - \eta \cdot \left[\frac{\partial \mathcal L_{\text{False}}(\mathcal W)}{\partial \mathcal W} + \frac{\partial \mathcal L_{\text{True}}(\mathcal W)}{\partial \mathcal W}\right] \\ & = \mathcal W^{(t)} - \eta \cdot \sum_{(x^{(i)},y^{(i)}) \in \mathcal D} \left(\hat y^{(i)} - y^{(i)}\right) x^{(i)} \\ & = \mathcal W^{(t)} + \eta \cdot \sum_{(x^{(i)},y^{(i)}) \in \mathcal D} \left(y^{(i)} - \hat y^{(i)}\right) x^{(i)} \end{aligned}$

其中 $\eta$ 表示学习率( $\text{Learning Rate}$ )。关于迭代结束的标志：当关于样本特征 $x^{(i)}$ 的预测结果 $\hat y^{(i)}$ 与真实标签 $y^{(i)}$ 相等，此时 $\mathcal W^{(t)} \Rightarrow \mathcal W^{(t+1)}$ 不会发生变化，迭代可以停止。

非线性问题与多层感知机

在前馈神经网络——非线性问题中已经对解决非线性问题的方式进行了介绍，这里不再赘述。这里仅从 $\text{M-P}$ 神经元模型的角度重温一下处理亦或问题的多层感知机结构：
亦或问题-两层感知机
很明显，这是一个两层感知机，其中包含输入层结点 $x_1,x_2$ ，输出层结点 $\mathcal Y$ 以及隐含层( $\text{Hidden Layer}$ )结点 $h_1,h_2$ 。

相比于感知机算法，上述多层感知机明显由 $3$ 个 $\text{M-P}$ 神经元模型嵌套组合的结构。并且神经元之间不存在同层连接，也不存在跨层连接。这种神经网络结构被称作多层前馈神经网络( $\text{Multi-Layer Feed-Forward Neural Network}$ )。
以上述结构为例，输入层不算网络层数，因而上述结构被称作‘两层网络’。但如果将隐藏层、输出层区分开，也可以将其称作：单隐层网络。

上述模型需要学习的权重参数有：
$\Theta = \{\mathcal W_{11},\mathcal W_{12},\mathcal W_{21},\mathcal W_{22},\theta_1,\theta_2,\theta_3\}$

反向传播算法( $\text{BackPropagation,BP}$ )

虽然上述的神经网络结构能够处理非线性问题，但关于权重参数 $\Theta$ 的学习过程，仅使用如错误驱动这种简单策略是不够的。
由于 $\text{M-P}$ 神经元的嵌套，使得网络结构变得更加复杂，仅通过随机调整参数去观察 $y^{(i)} - \hat y^{(i)}$ 的计算代价是极大的。

针对于多层神经网络，反向传播算法就是其中最杰出的代表。下面通过示例对梯度的反向传播过程进行描述。

场景构建

关于数据集合 $\mathcal D$ 的描述表示如下：
这里为了泛化起见，并没有将标签 $y^{(i)}(i=1,2,\cdots,N)$ 约束为标量，而是一个包含 $l$ 个随机变量的向量形式。
$\mathcal D = \{x^{(i)},y^{(i)}\}_{i=1}^N \quad x^{(i)} \in \mathbb R^{d};y^{(i)} \in \mathbb R^l$
上述条件已经给出了输入层、输出层的规模分别是 $d, l$ ，基于此构建一个含一个隐藏层的、隐藏层内神经元个数为 $q$ 的单隐层前馈神经网络：
单隐层神经网络示例

观察上图，除了输入层，隐藏层、输出层的结点均是 $\text{M-P}$ 神经元模型：

其中隐藏层神经元的阈值分别表示为： $\{\gamma_1,\gamma_2,\cdots,\gamma_q\}$ ；输出层神经元的阈值分别表示为： $\{\theta_1,\theta_2,\cdots,\theta_l\}$ ；
输入层结点 $\{x_1,x_2,\cdots,x_d\}$ 指向隐藏层第 $h$ 个神经元 $b_h$ 的权重分别表示为： $\{v_{1h},v_{2h},\cdots,v_{dh}\}$ ；同理，隐藏层神经元 $\{b_1,b_2,\cdots,b_q\}$ 指向输出层第 $j$ 个神经元 $y_j$ 的权重分别表示为： $\{w_{1j},w_{2j},\cdots,w_{qj}\}$ ；
关于隐藏层神经元 $b_h$ 接收到的输入 $\alpha_h$ 可表示为：
$\alpha_h = v_{1h} \cdot x_1 + \cdots + v_{dh} \cdot x_d = \sum_{i=1}^d v_{ih} \cdot x_i$