BP神经网络的数学原理及其算法实现

最新推荐文章于 2022-09-01 15:12:21 发布

mans-men

最新推荐文章于 2022-09-01 15:12:21 发布

阅读量647

点赞数 1

本文深入浅出地介绍了BP神经网络的基本工作原理，包括其结构、激活函数的选择、误差反向传播算法及其背后的数学原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转自http://blog.csdn.net/zhongkejingwang/article/details/44514073

BP网络的数学原理

　　下面将介绍BP网络的数学原理，相比起SVD的算法推导，这个简直就是小菜一碟，不就是梯度吗求个导就完事了。首先来看看BP网络长什么样，这就是它的样子：
　　这里写图片描述
为了简单起见，这里只介绍只有一个隐层的BP网络，多个隐层的也是一样的原理。这个网络的工作原理应该很清楚了，首先，一组输入 x1、x2、…、xm 来到输入层，然后通过与隐层的连接权重产生一组数据 s1、s2、…、sn 作为隐层的输入，然后通过隐层节点的 θ(⋅) 激活函数后变为 θ(sj) 其中 sj 表示隐层的第 j 个节点产生的输出，这些输出将通过隐层与输出层的连接权重产生输出层的输入，这里输出层的处理过程和隐层是一样的，最后会在输出层产生输出 y¯j ，这里 j 是指输出层第 j 个节点的输出。这只是前向传播的过程，很简单吧？在这里，先解释一下隐层的含义，可以看到，隐层连接着输入和输出层，它到底是什么？它就是特征空间，隐层节点的个数就是特征空间的维数，或者说这组数据有多少个特征。而输入层到隐层的连接权重则将输入的原始数据投影到特征空间，比如 sj 就表示这组数据在特征空间中第 j 个特征方向的投影大小，或者说这组数据有多少份量的 j 特征。而隐层到输出层的连接权重表示这些特征是如何影响输出结果的，比如某一特征对某个输出影响比较大，那么连接它们的权重就会比较大。关于隐层的含义就解释这么多，至于多个隐层的，可以理解为特征的特征。
　　前面提到激活函数 θ(⋅) ,一般使用S形函数（即sigmoid函数），比如可以使用log-sigmoid： θ(s)=11+e−s

或者tan-sigmoid： θ(s)=es−e−ses+e−s

　　前面说了，既然在输出层产生输出了，那总得看下输出结果对不对吧或者距离预期的结果有多大出入吧？现在就来分析一下什么东西在影响输出。显然，输入的数据是已知的，变量只有那些个连接权重了，那这些连接权重如何影响输出呢？现在假设输入层第i个节点到隐层第j个节点的连接权重发生了一个很小的变化 Δwij ，那么这个 Δwij 将会对 sj 产生影响，导致 sj 也出现一个变化 Δsj ，然后产生 Δθ(sj) ，然后传到各个输出层，最后在所有输出层都产生一个误差 Δe 。所以说，权重的调整将会使得输出结果产生变化，那么如何使这些输出结果往正确方向变化呢？这就是接下来的任务：如何调整权重。对于给定的训练样本，其正确的结果已经知道，那么由输入经过网络的输出和正确的结果比较将会有一个误差，如果能把这个误差将到最小，那么就是输出结果靠近了正确结果，就可以说网络可以对样本进行正确分类了。怎样使得误差最小呢？首先，把误差表达式写出来，为了使函数连续可导，这里最小化均方根差，定义损失函数如下：