神经网络前向后向传播推导及实现

最新推荐文章于 2022-08-10 10:31:07 发布

liangxinGao

最新推荐文章于 2022-08-10 10:31:07 发布

阅读量5.6k

点赞数 6

分类专栏：机器学习 bp-神经网络 bp神经网络c++ bp算法 bp详细推导文章标签：神经网络 bp-c++ 机器学习神经网络-推导

本文链接：https://blog.csdn.net/gao158190523/article/details/72963615

版权

本文详细介绍了BP神经网络的前向传播和反向传播过程，包括数学推导和C++代码实现，旨在帮助读者理解神经网络的工作原理。在前向传播中，从输入层到输出层的激活单元逐步计算，而在反向传播中，从输出层开始计算误差并反向传播以更新权重。文章还提到了初始化权重的重要性以及优化过程中的梯度下降策略。

摘要由CSDN通过智能技术生成

本文主要是BP网络的前后向传播较详细推导，以及C++实现，记下来也方便后面的回顾，也希望对关系细节的读者也一丝帮助。如果有不对的地方，请指正。

BP图模型：

这里写图片描述

网络中单个激活单元：

这里写图片描述

上图定了隐层中的激活单元，该隐层激活单元中含有一个偏置项b。相关运算如图所示，符号右上角角标为单元在网络中的层好，结合代码实现时，网络激活单元之间的权重一般保存在前一层的单元中。

这里有两点注意：

输入层的单元中没有偏置项b，但有权值项w。

输出层的单元中没有权值项w，但有偏置项b。

相关符号定义：

符号	意义
m	样本数
$nl$	网络的总层数
${{\rm{L}}_l}$	第 $l$ 层
${\rm{W}}_{ij}^{(l)}$	$l$ 层的j单元与 $l+1$ 的i单元之间的权值（weight）
${\rm{b}}_i^{(l)}$	第 $l$ 层第i个单元的偏置项
${{\rm{S}}_l}$	表示第 $l$ 层的节点数
$a_i^{(l)}$	表示第 $l$ 层第i单元的激活值
f(x)	sigmoid函数： ${\rm{f}}(x) = \frac{1}{{1 + {e^{ - x}}}}$
$z_i^{(l)}$	表示第 $l$ 层第i单元的输入
${{h_{wb}}(x)}$	表示整个网络对输入x的输出结果，等价于 $a^{({\rm{n}}l)}$

损失函数（带2范式正则）：

$J (W, b) = 1 m \sum i = 1 m J (W, b; x i, y i) + λ 2 \sum l = 1 n l - 1 \sum i = 1 S l \sum j = 1 S l + 1 (W (l) j i) 2$ $J(W,b) = \frac{1}{m}\sum\limits_{{\rm{i = 1}}}^{\rm{m}} {J(W,b;{x^i},{y^i})} {\rm{ + }}\frac{\lambda }{2}{\sum\limits_{l = 1}^{nl - 1} {\sum\limits_{i = 1}^{{S_l}} {\sum\limits_{j = 1}^{{S_l} + 1} {\left( {W_{ji}^{(l)}} \right)} } } ^2}$
其中， $J (W, b; x, y) = 1 2 ∥ h w b (x) - y ∥ 2$ ${\rm{J}}(W,b;x,y) = \frac{1}{2}{\left\| {{h_{wb}}(x) - y} \right\|^2}$

我们优化所有权值和偏置就是通过最小化损失函数来实现的，通过对损失函数计算各权值和偏置的梯度，然后沿着各自梯度的反方向走，就可以让损失函数慢慢变小，由于神经网络不是的损失函数不是严格凸函数，所以并不能保证找到全局最优解。我们首先就要计算各权值和偏置关于损失函数的梯度。

前向传播

Tip : 这里需要先初始化各单元中的权值和偏置项的值，权值可以按照标准正态分布去产生，也可以使用其它方式产生，但最好不要偷懒而给所有权值赋上相同的值，这样会导致极慢的收敛速度，有兴趣的读者可以修改下面的程序自己试下。

输入层向隐层的前向传播：
- 向输入层输入数据X，第二层第i个激活单元相关计算：
  该激活单元的输入： $z_i^{(2)}{\rm{ = }}\sum\limits_{{\rm{j}} = 1}^{{S_1}} {W_{ij}^{(1)}a_j^{(1)} + b_i^{(2)}}$ ，其中 $a_i^{(1)}{\rm{ = }}{{\rm{X}}_i}$
  该激活单元的输入： $a_i^{(2)}{\rm{ = f}}(z_i^{(2)}) = \frac{1}{{1 + {e^{ - z_i^{(2)}}}}}$
  计算完输入层的前向传播后就可以计算隐层间的传播了。
隐层间的传播：
- 上一层的隐层输出值作为当前隐层的输入值：
  第l 层第i个激活单元输入： $z_i^{(l)}{\rm{ = }}\sum\limits_{{\rm{j}} = 1}^{{S_{l-1}}} {W_{ij}^{(l-1)}a_j^{(l-1)} + b_i^{(l)}}$
  第l 层第i个激活单元输出： $a_i^{(l)}{\rm{ = f}}(z_i^{(l)}) = \frac{1}{{1 + {e^{ - z_i^{(l)}}}}}$
  隐层按照从低向高的顺序依次计算各层的激活单元，依次计算各层： $l=3,4,...{{S_{nl-1}}}$
输出层的传播：
- 传播到最后的输出层：
  第 ${{S_{nl}}}$ 层第i个激活单元输入： $z_i^{(nl)}{\rm{ = }}\sum\limits_{{\rm{j}} = 1}^{{S_{nl-1}}} {W_{ij}^{(nl-1)}a_j^{(nl-1)} + b_i^{(nl)}}$
  第 ${{S_{nl}}}$ 层第i个激活单元最终的输出： a(nl)i=f(z(nl)i)=11+e−z