神经网络基础02-激活函数+反向传播算法

最新推荐文章于 2024-04-18 05:45:00 发布

謝堆堆DDD

最新推荐文章于 2024-04-18 05:45:00 发布

阅读量2.4k

点赞数 1

分类专栏：神经网络文章标签：神经网络

本文链接：https://blog.csdn.net/Eve_Shieh/article/details/115637956

版权

神经网络专栏收录该内容

7 篇文章 4 订阅

订阅专栏

本文详细介绍了循环神经网络RNN和长短期记忆网络LSTM的基本原理，通过Pytorch实现实例，探讨了激活函数的作用、选择及其在反向传播中的应用。涉及sigmoid、tanh和ReLU等激活函数，以及如何处理梯度消失问题。

摘要由CSDN通过智能技术生成

参考文章：https://zhuanlan.zhihu.com/p/40903328

人工神经网络（Aritificial Neural Networks, ANN）
长短期记忆网络（LSTM，Long Short-Term Memory）

本文将由浅入深介绍循环神经网络RNN和长短期记忆网络LSTM的基本原理，并基于Pytorch实现一个简单应用例子，提供完整代码。

激活函数

为什么需要激活函数？

从数学上看，神经网络是一个多层复合函数。激活函数在很早以前就被引入，其作用是保证神经网络的非线性，因为线性函数无论怎样复合结果还是线性的。假设神经网络的输入是n维向量x，输出是m维向量y，它实现了如下向量到向量的映射：

我们将这个函数记为：

除输入层之外，标准的前馈型神经网络第I层实现的变换可以分为线性组合、激活函数两步。在某些开源框架中，这两步可能会拆分成不同的层，以利于代码复用和灵活组合。例如Caffe（卷积神经网络框架）中线性组合由内积层InnerProductLayer类实现，激活函数由神经元层NeuronLayer类实现。神经网络第l层的变换写成矩阵和向量形式为：

其中W是权重矩阵，b是偏置向量，u是临时结果，x是神经网络每一层的输出。激活函数分别作用于向量u的每一个分量，产生一个向量输出x。在正向传播阶段，反复用上面的公式进行计算，最后得到网络的输出。对于一个3层的网络，整个映射可以写成：

这是一个3层的复合函数。从这里可以清晰的看到，如果没有激活函数，整个函数将是一个线性函数：

因此对激活函数最基本的要求是必须是非线性的。在早期，普遍使用的是sigmoid函数和tanh函数。sigmoid函数的计算公式为：

tanh函数的计算公式为：在这里插入图片描述

什么样的函数可以做激活函数？

什么样的函数是好的激活函数？

sigmoid函数的输出映射在(0,1)之间，单调连续，求导容易。但是由于其软饱和性，容易产生梯度消失，导致训练出现问题；另外它的输出并不是以0为中心的。

tanh函数的输出值以0为中心，位于(-1,+1)区间，相比sigmoid函数训练时收敛速度更快，但它还是饱和函数，存在梯度消失问题。

ReLU函数其形状为一条折线，当x<0时做截断处理。该函数在0点出不可导，如果忽略这一个点其导数为sgn。函数的导数计算很简单，而且由于在正半轴导数为1，有效的缓解了梯度消失问题。在ReLU的基础上又出现了各种新的激活函数，包括ELU、PReLU等。

各种常用的激活函数与它们的导数如下表所示：
在这里插入图片描述

激活函数总结

在工程实现时，如果将激活函数作为一个单独的层，则在正向传播时对输入向量的每个分量计算激活函数值f(x)。在反向传播时对输入数据计算导数值f’(x)，然后乘以后一层送入的误差项，得到本层的误差项，送入前一层中：

在这里插入图片描述

反向传播算法推导

介绍

反向传播算法从多元复合函数求导的链式法则导出，递推的计算神经网络每一层参数的梯度值。算法名称中的“误差”是指损失函数对神经网络每一层临时输出值的梯度。

反向传播算法从神经网络的输出层开始，利用递推公式根据后一层的误差计算本层的误差，通过误差计算本层参数的梯度值，然后将差项传播到前一层。

反向传播算法是一个通用的思路。全连接神经网络（多层感知器模型，MLP）给出的是全连接层的反向传播实现；卷积神经网络（CNN）引入了卷积层和池化层，对这两种层的反向传播做了自己的处理；循环神经网络（RNN）因为在各个时刻共享了权重矩阵和偏置向量，因此需要进行特殊处理，为此出现了BPTT算法，误差项沿着时间轴反向传播。

本文推导全连接神经网络的反向传播算法。