激活函数的属性以及激活函数的选择

最新推荐文章于 2024-04-12 09:39:21 发布

ZYXxxxxxhhh

最新推荐文章于 2024-04-12 09:39:21 发布

阅读量1k

点赞数

分类专栏：数据挖掘深度学习文章标签：深度学习神经网络算法

本文链接：https://blog.csdn.net/Zhongyanxia123/article/details/110873626

版权

一、激活函数需要有什么属性？

非线性：
即导数不是常数。这个条件是多层神经网络的基础，保证多层网络不退化成单层线性网络。这也是激活函数的意义所在。
几乎处处可微：
可微性保证了在优化中梯度的可计算性。传统的激活函数如sigmoid等满足处处可微。对于分段线性函数比如ReLU，只满足几乎处处可微（即仅在有限个点处不可微）。对于SGD算法来说，由于几乎不可能收敛到梯度接近零的位置，有限的不可微点对于优化结果不会有很大影响。
计算简单：
非线性函数有很多。极端的说，一个多层神经网络也可以作为一个非线性函数，类似于Network In Network中把它当做卷积操作的做法。但激活函数在神经网络前向的计算次数与神经元的个数成正比，因此简单的非线性函数自然更适合用作激活函数。这也是ReLU之流比其它使用Exp等操作的激活函数更受欢迎的其中一个原因。
非饱和性（saturation）：
饱和指的是在某些区间梯度接近于零（即梯度消失），使得参数无法继续更新的问题。最经典的例子是Sigmoid，它的导数在x为比较大的正值和比较小的负值时都会接近于0。更极端的例子是阶跃函数，由于它在几乎所有位置的梯度都为0，因此处处饱和，无法作为激活函数。ReLU在x>0时导数恒为1，因此对于再大的正值也不会饱和。但同时对于x<0，其梯度恒为0，这时候它也会出现饱和的现象（在这种情况下通常称为dying ReLU）。Leaky ReLU和PReLU的提出正是为了解决这一问题。
单调性（monotonic）：
即导数符号不变。这个性质大部分激活函数都有

最低0.47元/天解锁文章

ZYXxxxxxhhh

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
激活函数的属性以及激活函数的选择

一、激活函数需要有什么属性？非线性：即导数不是常数。这个条件是多层神经网络的基础，保证多层网络不退化成单层线性网络。这也是激活函数的意义所在。几乎处处可微：可微性保证了在优化中梯度的可计算性。传统的激活函数如sigmoid等满足处处可微。对于分段线性函数比如ReLU，只满足几乎处处可微（即仅在有限个点处不可微）。对于SGD算法来说，由于几乎不可能收敛到梯度接近零的位置，有限的不可微点对于优化结果不会有很大影响。计算简单：非线性函数有很多。极端的说，一个多层神经网络也可以作为一个非线性函数，类似
复制链接

扫一扫