模式识别系列（七）反向传播神经网络

最新推荐文章于 2024-09-22 22:13:16 发布

人工小智障

最新推荐文章于 2024-09-22 22:13:16 发布

阅读量805

点赞数 1

文章标签：神经网络深度学习算法

本文链接：https://blog.csdn.net/qq_45657975/article/details/119077691

版权

1.反向传播神经网络的结构

1.1神经网络概述

神经网络自GPU蓬勃发展以来，已经渐渐地家喻户晓，门口买烧饼的大爷都知道人工智能下棋很厉害。神经网络被广泛应用于各种领域，图像识别，语音处理，三维重建，脑电处理等等，细化出了无数的模型，比如著名的YOLO，INCEPTION，RNN，RESNET等等，把这些全部讲完是不可能的。但是万变不离其中，神经网络就像是堆积木，固然每个算法都有自己的独特之处，网络的绝大部分都是卷积层和全连接层的堆叠。本篇将重点放在最原始的梯度反向传播神经网络，因为反向传播的算法实在是太关键了。

1.2BP神经网络结构

back propagation net，又称bpnet，是最为基础的一类神经网络，由输入层，中间层和输出层组成，基本结构就是下图：
在这里插入图片描述如何理解这个图呢？我们可以把每一层都想象成一个特征向量 $x_i$ ,特征向量的每一个维度记作 $x_{ij}$ ,其中 $i$ 表示第 $i$ 层的神经元。那么下一层的第 $j$ 个神经元的输出结果就可以表示为：
$x_{i+1 ,j} = \theta(w_{ij} x_i)$
拓展到所有神经元，式子就可以写成：
$x_{i+1} = \theta(w_i x_i)$
其中 $x_i$ 是一个m维的向量， $x_{i+1}$ 是一个n维的向量， $w_i$ 是一个n*m的矩阵。 $\theta$ 表示激活函数，常用的激活函数有：sigmoid,tanh,relu等等。在介绍这些激活函数前首先说明以下一下为什么需要激活函数。激活函数出现的目的就是引入非线性的变换，从而使网络可以拟合非线性的分类面。试设想，假如没有非线性环节，那么神经网络的层数堆叠就毫无意义，神经网络归根结底是加权和，形式为：
$\theta(w_n^T...\theta(w_2^T\theta(w_1^Tx + b)+b)......+b)$
假如是线性变换，例如：
$4 (5 (3 x + 5) + 8) + 2 = 60 x + 135$
那么中间那些环节其实没有起到作用，线性变换是可以合一的，因此需要进行非线性变换，常用的激活函数有sigmoid：
$\theta(x) = \frac{1}{1+e^{-x}}$
这个式子在logistic回归中出现过，可以看到，使用这个函数后，每一个神经元其实都是一次logistic回归。tanh函数的式子是：
$\frac{e^x-e^{-x}}{e^x+e^{-x}}$
将输出映射到（-1,1）区间。Relu的形式是：
$\theta(x)=\left \{\begin{aligned} &x, \quad x\ge 0 \\ &0, \quad x < 0 \end{aligned}\right.$
此举避免了梯度消失，因为上两种激活函数往往会到达饱和区，求导梯度趋向于0，从而难以更新权重。

2.反向传播算法推导

2.1什么是反向传播

反向传播这句话缺了宾语，补上之后就显得一目了然，那就是反向传播梯度。我们在之前的梯度下降法中已经讲过，权重更新公式：
$\mathbf{w}_{t+1} = \mathbf{w}_t - \eta \cdot \frac{\partial E}{\partial \mathbf{w}_t}$
而神经网络每一层都有权重，但是计算损失函数的时候只有最后一层的损失，那么怎么用这一个损失梯度来更新全部的权重呢？我们的神经网络是由线性和非线性部分组成，而使用的非线性激活函数都是可以求导的。因此，应用微积分中的链式法则，就可以一步一步将偏导逐渐传到每一层。我们看一个例子。假如我们的函数是 $f = (x+y)^3z$ ，那么如何求 $\frac{\partial f}{\partial x}$ 呢，那么令 $q = x + y$ , $p=q^3$ 就可以把偏导拆成 $\frac{\partial f}{\partial p}\cdot \frac{\partial p}{\partial q}\cdot \frac{\partial q}{\partial x}$ ,最后得到结果 $z*3(x+y)^2$ ，那我们是不是可以把这三个导数看成三层神经元？第一层的激活函数是一个线性的 $* 1$ ,第二层的激活函数是一个 $x^3$ ,第三层的激活函数是一个倍增 $x z$ 。

2.2BPNet反向传播推导

有了反向传播的概念，我们现在可以开始推导神经网络的反向传播了，还是拿之前那张图，这样一来可以更加具体：
在这里插入图片描述在这个例子里， $x_i$ 是一个3维的向量， $x_{i+1}$ 是一个4维的向量，那么 $w_i$ 就是一个4*3的矩阵，
$x_{i+1} = \theta(w_i x_i)$ , $w_{ij}$ 是箭头指向 $x_{i+1, j}$ 的三条线上的权重，而 $w_i$ 的列向量则是从 $x_{ij}$ 发出的四条指向 $x_{i+1}$ 的线上的权重。现在我们假设 $x_{i+1}$ 上收到后方传来的梯度为 $\delta(x_{i+1})$ ,即 $\frac{\partial E}{\partial x_{i+1}} =\delta(x_{i+1})$ 这是一个4维的向量。那么对照上图 $\frac{\partial E}{\partial w_{ij}}$ 的值就很容易得到(注意 $w_{ij}是1*3的向量)$ ，即：
$\frac{\partial E}{\partial w_{ij}}=\delta(x_{i+1})*\frac{\partial x_{i+1}}{\partial w_{ij}x_i} * \frac{\partial w_{ij}x_i}{\partial w_{ij}} =\delta(x_{i+1,j})\theta'(w_{ij}x_i)x_i^T$
拓展到每一个 $j$
$\frac{\partial E}{\partial w_{i}}= \delta(x_{i+1,j})\theta'(w_{i}x_i)x_i^T$
用这个公式去更新 $w_i$ 就可以了。
利用上层梯度更新这层权重已经完成了，接下来就是向下层传递梯度，也就是求 $\frac{\partial E}{\partial x_{i}}$ ,我们可以看到， $x_i$ 的每一个维度向下一层发出了四条线，那么回传偏导的时候，这四条线都要给他传递偏导，而这四条线正好就是 $w_i$ 的列向量，那么只要用 $w_i$ 的列向量去乘以 $\delta(x_{i+1,j})\theta'(w_{i}x_i)$ ,不就得到了 $\frac{\partial E}{\partial x_{i}}$ 也就是 $\delta(x_i)$ 了吗？由此写出公式：
$\delta(x_i)=w_i^T \delta(x_{i+1,j})\theta'(w_{i}x_i)$
是不是很简单？由上，已知 $\delta(x_{i+1})$ 就能得到 $\delta(x_{i})$ ，那么BP网络的学习过程就是两个：首先，正向地计算出各个 $x_i$ 的值，并且计算loss，求到 $\frac{\partial E}{\partial x_n}$ ,这是最后一层的梯度。然后，反向通过网络，由上面的两个公式，通过 $\delta(x_i)$ 不断计算出 $\frac{\partial E}{\partial w_{i-1}}$ 和 $\delta(x_{i-1})$ ,一直到输入层为止。最后简单地根据梯度下降法更新一下权重，就可以开始下一轮的训练了。
另外提一嘴，pooling层虽然我不会开篇将，但是pooling的梯度回传比较特殊，因为pooling是取极大极小或者平均，这时候就是人为地规定梯度传给选择的那一片区域，或者是平均一下传给所有的区域。