激活函数原函数和导数的绘制及饱和度-- 021

最新推荐文章于 2024-08-09 15:15:00 发布

小麦粒

最新推荐文章于 2024-08-09 15:15:00 发布

阅读量1.3k

点赞数 1

本文链接：https://blog.csdn.net/u010986753/article/details/104958523

版权

本文介绍了深度学习中常用的激活函数，包括Sigmoid、tanh和ReLU。Sigmoid函数存在梯度消失问题，其输出非零均值；tanh是Sigmoid的变形，输出范围在-1到1之间，但同样面临梯度消失；ReLU因其线性特性避免了梯度消失，加速了模型训练，但可能引发神经元失活。此外，讨论了激活函数的饱和度及其对模型训练的影响。

摘要由CSDN通过智能技术生成

微信公众号：python宝
关注可了解更多的python相关知识。若有问题或建议，请公众号留言;

内容目录

一、激活函数简介二、Sigmoid三、tanh四、ReLU 五、其它激活函数及饱和度

一、激活函数简介

深度学习的发展一般分为三个阶段，感知机-->三层神经网络-->深度学习（表示学习）。早先的感知机由于采用线性模型，无法解决异或问题，表示能力受到限制。为此三层神经网络放弃了感知机良好的解释性，而引入非线性激活函数来增加模型的表示能力，非线性变换函数又被称为激活函数。

1）非线性激活函数的引入，使得模型能解决非线性问题；
2）引入激活函数之后，不再会有0损失的情况，损失函数采用对数损失，这也使得三层神经网络更像是三层多元（神经单元）逻辑回归的复合。

神经网络中每一个神经元都可以看作是一个逻辑回归模型，三层神经网络就是三层逻辑回归模型的复合，只是不像逻辑回归中只有一个神经元，一般输入层和隐藏层都是具有多个神经元，而输出层对应一个logistic回归单元或者softmax单元，或者一个线性回归模型。

如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了。

如果使用激活函数,会给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

值得注意的是激活函数是一个数值操作，不涉及矩阵求导，线性函数中1/m是因为w是作用于m个样本，所以在确定负梯度方向时需要m个样本取均值。

二、Sigmoid

Sigmoid函数会造成梯度损失。

一个非常不好的地方在于Sigmoid在靠近1和0的两端时梯度几乎为0，而反向传播算法的梯度向下传播时，每过一层就会增加一个g′(z)项（Sigmoid关于每一层线性组合值的导数），且Sigmoid函数的导数满足f′(x)=f(x)(1−f(x))，又f(x)的值在(0, 1)之间，故f′(x)的值在(0, 0.25]之间，因此当神经网络层数非常深的时候，较深层的梯度值由于乘了很多值很小的数更变得很小，导致较深层的参数更新不动，这就是“梯度消失”现象。另外，如果使用Sigmoid函数，那么需要在权重初始化的时候非常小心，如果初始化的权重过大，经过线性激活函数也会导致大多数神经元变得饱和，没有办法更新参数。

Sigmoid输出并非zero-centered，不便于下层的计算