关于BP算法的一点理解

最新推荐文章于 2024-09-11 16:51:25 发布

TinnCHEN

最新推荐文章于 2024-09-11 16:51:25 发布

阅读量3.3k

点赞数

文章标签：前馈神经网络机器学习 BP网络神经网络

本文链接：https://blog.csdn.net/TinnCHEN/article/details/79865421

版权

关于BP算法的一点理解

由于最近在撸毕设初次接触机器学习的神经网络部分今天学习了前馈神经网络的部分，仅供自身学习总结用，有不足之处还望指教。

前馈神经网络是一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层．各层间没有反馈。是目前应用最广泛、发展最迅速的人工神经网络之一。研究从20世纪60年代开始，目前理论研究和实际应用达到了很高的水平。

一、神经网络模型

这里写图片描述

{ $x_1$ 、 $x_2$ 、….、 $x_n$ }表示1….n个的神经元的输入；

{ $w_{i1}$ 、 $w_{i2}$ 、….、 $w_{in}$ }表示每个传输的权重；

当前神经元的值为其相乘求和（看情况加上截距项或偏值项b）；
输出为当前神经元的值减去阈值 $\theta_i$ ；

为了解决单层神经网络无法进行异或运算我们加了隐含层。
若继续增加隐藏层，可以解决更多的分类问题。
但是加大了运算难度。

二、激活函数

也叫激励函数，表示神经元内部的反应机制，决定网络的处理能力，在数学上做非线性变换。

激活函数通常有如下一些性质：

非线性：当激活函数是线性的时候，一个两层的神经网络就可以逼近基本上所有的函数了。但是，如果激活函数是恒等激活函数的时候（即），就不满足这个性质了，而且如果MLP使用的是恒等激活函数，那么其实整个网络跟单层神经网络是等价的。
可微性：当优化方法是基于梯度的时候，这个性质是必须的。
单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。
：当激活函数满足这个性质的时候，如果参数的初始化是random的很小的值，那么神经网络的训练将会很高效；如果不满足这个性质，那么就需要很用心的去设置初始值。
输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的learning rate。
常用的激活函数有：
1、0-1阶跃，Sgn符号函数；
2、Sigmoid：Logistics-Sigmoid逻辑回归、Tanh-Sigmoid双曲正切；
3、ReLu、Leaky ReLu、PReLU 或者Maxout；
4、SoftMax，用作多分类。

三、BP算法

解决了两层神经网络所需要的复杂计算量问题。
利用前项传导公式，计算第n层（输出层）输出值。
预测值y要跟我们的标签值进行比对，将误差反馈回去，减小误差和，运用梯度下降等方法进行调整。
通过一层一层的往回传递调整每一层权值。

BP网络采用了反向传播学习算法，具体如下图：
这里写图片描述
为方便理解我们以单一一条（以第一条为例）来谈：
第一步：
计算神经元 $I_2$ 的输入加权和， $input_{I2}$ = $x_1$ *V；
用sigmoid函数作为激活函数，
则 $output_{I2}$ =1/（1+ $e^{-input_{I2}}$ ）；
同理可得 $I_3$ 相关的值。
第二步：（反向传播）
总误差：Error=(1/2)* $(Target-output_{I3})^2$ (方便求导)
求输出层到隐藏层的权重W的偏导,根据链式求导可得：
$\frac{\partial{Error}}{\partial{W}}$ = $\frac{\partial{Error}}{\partial{output_{I3}}}$ $\frac{\partial{output_{I3}}}{\partial{input_{I3}}}$ $\frac{\partial{input_{I3}}}{\partial{W}}$
计算第一项可得：-（target- $output_{I3}$ ）
计算第二项可得: $output_{I3}$ *（1- $output_{I3}$ ）
计算第三项可得： $output_{I2}$
三项相乘可得： $\frac{\partial{Error}}{\partial{W}}$ =-（target- $output_{I3}$ ） $output_{I3}$ （1- $output_{I3}$ ）* $output_{I2}$
令 $\delta$ =-（target- $output_{I3}$ ） $output_{I3}$ （1- $output_{I3}$ ）
则公式可表示为： $\frac{\partial{Error}}{\partial{W}}$ = $\delta$ * $output_{I2}$
更新 $W_1$ =W- $\eta$ * $\frac{\partial{Error}}{\partial{W}}$
$\eta$ 为学习效率可以取0.5。
同理可计算别的层。多个输入求和 $\sum$ 即可。