【读书笔记】多层感知器反向传播过程

阅读书籍:神经网络原理(Simon Haykin著, 叶世伟,史忠植 译)
图文公式来源于书籍

反向传播信号流图:

途中上侧为前向传播过程,下侧为反向传播过程:在这里插入图片描述
反向传播过程需要五个步骤:
1,初始化:
以一个随机分布随机的挑选出一组权值和阈值。这里随机分布应为(均值为0的均匀分布, 方差应使神经远的局部诱导域的标准差位于sigmoid函数的包和过度处)。
2,训练样本的呈现:
先训练一个回合(一层神经元);
3,前向计算:
计算L层的局部诱导域:
在这里插入图片描述
计算L层的输出信号:
在这里插入图片描述
计算误差信号:
在这里插入图片描述
4,反向计算:
计算网络的局部梯度:
在这里插入图片描述
权值更新:
在这里插入图片描述
5,迭代:
根据第三第四点进行前向和反向迭代计算剩下回合,直到满足停止条件;

其中值得注意的问题有:
学习率η:
学习率指的是迭代过程中每次迭代时突触权值的变化量大小,η越小,则表示变化量越小,权值空间的变化轨迹就越光滑,随之也越慢;η越大,轨迹变化就越震荡,迭代次数越少,时间越短。
为了在提高速度的同时保持权值空间变化轨迹的平稳,为权值更新引入一个动量常数α:
在这里插入图片描述
通过控制动量常数α的大小(α>0)基于上一次权值变化量(依赖了连接)来控制当前权值变化量,避免变化过大导致轨迹震荡。在训练初期权值被大幅度调整,在趋于稳定的下降方向上加速下降。在训练后期快接近最优值时,在最值附近左右小步寻优。避免了小学习率带来的迭代次数过多时间过长的问题。
训练的串行和集种方式:
串行训练:
又称为在线方式,模式方式或随机方式:
在每个样本训练完成后进行权值更新。
集中训练:
在每个回合(一组)训练完成后进行权值更新。

从在线运行的观点来看串行只需更小的局部存贮,在随机方式给定训练模式时串行方式在权值空间中随机性更高,降低陷入局部最优的危险性。虽然串行方式的随机性使得算法收敛变得不那么容易,集中方式则可以直接提供精确估计。但是总的来说:串行方式更简单,在大型问题和复杂问题中更有效。
停止准则:
目前并没有统一,标准的停止准则。但考虑在算法到达最优点时肯定一阶求导为0,故此:
当梯度向量的欧几里得范数达到一个充分小的梯度阈值时,认为收敛,停止训练。
但这样时间可能会很长,当最优时一阶求导为0,一定平稳故此新准则为:
当回合的均方误差的变化速率足够小时,认为收敛,停止训练。
但这样可能会陷入局部最优,导致过早停止,当最优时其泛化能力一定最优,故此新准则为:
当当前泛化能力达到明显峰值时,认为收敛,停止训练。

©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页