激活函数原函数和导数的绘制及饱和度-- 021

本文介绍了深度学习中常用的激活函数,包括Sigmoid、tanh和ReLU。Sigmoid函数存在梯度消失问题,其输出非零均值;tanh是Sigmoid的变形,输出范围在-1到1之间,但同样面临梯度消失;ReLU因其线性特性避免了梯度消失,加速了模型训练,但可能引发神经元失活。此外,讨论了激活函数的饱和度及其对模型训练的影响。
摘要由CSDN通过智能技术生成

微信公众号:python宝
关注可了解更多的python相关知识。若有问题或建议,请公众号留言;

内容目录

一、激活函数简介二、Sigmoid三、tanh四、ReLU      五、其它激活函数及饱和度

一、激活函数简介

    深度学习的发展一般分为三个阶段,感知机-->三层神经网络-->深度学习(表示学习)。早先的感知机由于采用线性模型,无法解决异或问题,表示能力受到限制。为此三层神经网络放弃了感知机良好的解释性,而引入非线性激活函数来增加模型的表示能力,非线性变换函数又被称为激活函数。

1)非线性激活函数的引入,使得模型能解决非线性问题;
2)引入激活函数之后,不再会有0损失的情况,损失函数采用对数损失,这也使得三层神经网络更像是三层多元(神经单元)逻辑回归的复合。

  神经网络中每一个神经元都可以看作是一个逻辑回归模型,三层神经网络就是三层逻辑回归模型的复合,只是不像逻辑回归中只有一个神经元,一般输入层和隐藏层都是具有多个神经元,而输出层对应一个logistic回归单元或者softmax单元,或者一个线性回归模型。

  如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情况下你每一层输出都是上层输入的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(Perceptron)了。

        如果使用激活函数,会给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。

        值得注意的是激活函数是一个数值操作,不涉及矩阵求导,线性函数中1/m是因为w是作用于m个样本,所以在确定负梯度方向时需要m个样本取均值。

二、Sigmoid

  Sigmoid函数会造成梯度损失。

        一个非常不好的地方在于Sigmoid在靠近1和0的两端时梯度几乎为0,而反向传播算法的梯度向下传播时,每过一层就会增加一个g′(z)项(Sigmoid关于每一层线性组合值的导数),且Sigmoid函数的导数满足f′(x)=f(x)(1−f(x)),又f(x)的值在(0, 1)之间,故f′(x)的值在(0, 0.25]之间,因此当神经网络层数非常深的时候,较深层的梯度值由于乘了很多值很小的数更变得很小,导致较深层的参数更新不动,这就是“梯度消失”现象。另外,如果使用Sigmoid函数,那么需要在权重初始化的时候非常小心,如果初始化的权重过大,经过线性激活函数也会导致大多数神经元变得饱和,没有办法更新参数。

  Sigmoid输出并非zero-centered,不便于下层的计算

        这就会导致经过Sigmoid激活函数之后的输出&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值