激活函数

最新推荐文章于 2024-04-26 23:16:24 发布

颐水风华

最新推荐文章于 2024-04-26 23:16:24 发布

阅读量287

点赞数

分类专栏：深度零散知识点

引用请注明出处，并免费提供别人参考。

本文链接：https://blog.csdn.net/weixin_39875161/article/details/92853056

版权

深度零散知识点专栏收录该内容

29 篇文章 6 订阅

订阅专栏

参考文献找打不到了，非常抱歉。

激活函数

激活函数负责为神经网络引入非线性特征。非线性激活函数可以使神经网络随意逼近复杂函数。没有激活函数带来的非线性，多层神经网络和单层无异。防止梯度消失或者爆炸。

1.Sigmoid

sigmoid激活函数：

函数公式如下：

求导

函数图像如下：

输入数据范围：[0，∞)

优点：

Sigmoid的取值范围在(0, 1)，而且是单调递增，比较容易优化

Sigmoid求导比较容易，可以直接推导得出。

缺点：

    Sigmoid函数收敛比较缓慢
    由于Sigmoid是软饱和，容易产生梯度消失，对于深度网络训练不太适合（从图上sigmoid的导数可以看出当x趋于无穷大的时候，也会使导数趋于0）
    Sigmoid函数并不是以（0,0）为中心点

2.tanh

tanh激活函数:
在这里插入图片描述
tanh导数:

Tanh 激活函数又叫作双曲正切激活函数（hyperbolic tangent activation function）。与 Sigmoid 函数类似，Tanh 函数也使用真值，但 Tanh 函数将其压缩至-1 到 1 的区间内。与 Sigmoid 不同，Tanh 函数的输出以零为中心。在实践中，Tanh 函数的使用优先性高于 Sigmoid 函数。负数输入被当作负值，零输入值的映射接近零，正数输入被当作正值。唯一的缺点是：

Tanh 函数也会有梯度消失的问题，因此在饱和时也会「杀死」梯度。

为了解决梯度消失问题，我们来讨论另一个非线性激活函数——修正线性单元（rectified linear unit，ReLU），该函数明显优于前面两个函数，是现在使用最广泛的函数。

双切正切函数，取值范围为[-1,1]，tanh在特征相差明显时的效果会很好，在循环过程中会不断扩大特征效果。与 sigmoid 的区别是，tanh 是 0 均值的，因此实际应用中 tanh 会比 sigmoid 更好。

输出数范围：[0，1)

3.ReLU

数学公式:
在这里插入图片描述
ReLU激活函数:

ReLU导数:

当输入 x<0 时，输出为 0，当 x> 0 时，输出为 x。该激活函数使网络更快速地收敛。它不会饱和，即它可以对抗梯度消失问题，至少在正区域（x> 0 时）可以这样，因此神经元至少在一半区域中不会把所有零进行反向传播。由于使用了简单的阈值化（thresholding），ReLU 计算效率很高。但是 ReLU 神经元也存在一些缺点：

不以零为中心：和 Sigmoid 激活函数类似，ReLU 函数的输出不以零为中心。
前向传导（forward pass）过程中，如果 x < 0，则神经元保持非激活状态，且在后向传导（backward pass）中「杀死」梯度。这样权重无法得到更新，网络无法学习。当 x = 0 时，该点的梯度未定义，但是这个问题在实现中得到了解决，通过采用左侧或右侧的梯度的方式。

为了解决 ReLU 激活函数中的梯度消失问题，当 x < 0 时，我们使用 Leaky ReLU——该函数试图修复 dead ReLU 问题。

引入relu函数的原因：

    采用sigmoid等函数，算激活函数时（指数运算），计算量大，反向传播求误差梯度时，求导涉及除法，计算量相对大，而采用Relu激活函数，整个过程的计算量节省很多。
    对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失），从而无法完成深层网络的训练。
    ReLu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

输出数据范围：[0，∞)

4.Leaky ReLU

数学公式:
在这里插入图片描述
Leaky ReLu激活函数

Leaky ReLU 的概念是：当 x < 0 时，它得到 0.1 的正梯度。该函数一定程度上缓解了 dead ReLU 问题，但是使用该函数的结果并不连贯。尽管它具备 ReLU 激活函数的所有特征，如计算高效、快速收敛、在正区域内不会饱和。

Leaky ReLU 可以得到更多扩展。不让 x 乘常数项，而是让 x 乘超参数，这看起来比 Leaky ReLU 效果要好。该扩展就是 Parametric ReLU。

5.Parametric ReLU

数学公式:
在这里插入图片描述
其中是超参数。这里引入了一个随机的超参数，它可以被学习，因为你可以对它进行反向传播。这使神经元能够选择负区域最好的梯度，有了这种能力，它们可以变成 ReLU 或 Leaky ReLU。

总之，最好使用 ReLU，但是你可以使用 Leaky ReLU 或 Parametric ReLU 实验一下，看看它们是否更适合你的问题。

6.Swish

数学公式:
在这里插入图片描述
数学公式:

根据论文（https://arxiv.org/abs/1710.05941v1），Swish 激活函数的性能优于 ReLU 函数。

这样即修正了数据分布，又保留了一些负轴的值，使得负轴信息不会全部丢失。但是这个α通常是通过先验知识人工赋值的。

7.RReLU

RREL全名“Randomized Leaky ReLU”，中文：随机修正线性单元。RRelu，是Leaky ReLu的随即版本。他首次在Kaggle的NDSB比赛上被提出，企图向表达如下：

RReLU的核心思想是在训练过程中，a是从一个高斯分布U(l,u)中随机取出的，然后在测试过程进行修正

在训练过程中，α是从高斯分布中随机选出来，再在测试过程中修正。在测试阶段，吧训练中所有的aij都取平均值

8.ELU

ELU英文全名“Exponential Linear Units”,中文命名“指数线性单元”。它试图把激活函数的输出平均值接近0，从哦个人加速学习率，同时，他还能通过正值表示来避免梯度消失的问题。根据一些研究显示，ELU分类准确度是高于RELU的。

公式如下：

它与其他函数的比较

优点：包含ReLU所有优点；神经元不会死亡；激活函数输出均值接近0；
缺点：包含指数运算。

9.Maxout

优点：包含ReLU所有优点；神经元不会死亡；
缺点：因为每个神经元有两组w，导致参数数量激增。

问答

@作者：约翰曰不约

为什么通常Relu比sigmoid和tanh强，有什么不同？
主要是因为它们gradient特性不同。sigmoid和tanh的gradient在饱和区域非常平缓，接近于0，很容易造成vanishing gradient的问题，减缓收敛速度。vanishing gradient在网络层数多的时候尤其明显，是加深网络结构的主要障碍之一。相反，Relu的gradient大多数情况下是常数，有助于解决深层网络的收敛问题。Relu的另一个优势是在生物上的合理性，它是单边的，相比sigmoid和tanh，更符合生物神经元的特征。
而提出sigmoid和tanh，主要是因为它们全程可导。还有表达区间问题，sigmoid和tanh区间是0到1，或着-1到1，在表达上，尤其是输出层的表达上有优势。

@作者：crackhopper，

ReLU更容易学习优化。因为其分段线性性质，导致其前传，后传，求导都是分段线性。而传统的sigmoid函数，由于两端饱和，在传播过程中容易丢弃信息：

@作者：Begin Again

第一个问题：为什么引入非线性激励函数？
如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了。
正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络就有意义了（不再是输入的线性组合，可以逼近任意函数）。最早的想法是sigmoid函数或者tanh函数，输出有界，很容易充当下一层输入（以及一些人的生物解释balabala）。
第二个问题：为什么引入Relu呢？
第一，采用sigmoid等函数，算激活函数时（指数运算），计算量大，反向传播求误差梯度时，求导涉及除法，计算量相对大，而采用Relu激活函数，整个过程的计算量节省很多。
第二，对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失，参见 @Haofeng Li 答案的第三点），从而无法完成深层网络的训练。
第三，Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生（以及一些人的生物解释balabala）。

当然现在也有一些对relu的改进，比如prelu，random relu等，在不同的数据集上会有一些训练速度上或者准确率上的改进，具体的大家可以找相关的paper看。
多加一句，现在主流的做法，会在做完relu之后，加一步batch normalization，尽可能保证每一层网络的输入具有相同的分布[1]。而最新的paper[2]，他们在加入bypass connection之后，发现改变batch normalization的位置会有更好的效果。大家有兴趣可以看下。

其他资料

关于权重

设置初始化权重同样也非常重要：
如果设置初始化权重过大（如下图），不同层激活值就会趋于-1和1，趋于饱和。
在这里插入图片描述
如果设置初始化权重过小（如下图），激活值就会越来越趋近于0导致网络无法正常工作。

有一种方法(Xavier初始化)通过保持输入输出前后方差一致来计算初始权重。（见下图）

颐水风华

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
激活函数

参考文献找打不到了，非常抱歉。激活函数激活函数负责为神经网络引入非线性特征。非线性激活函数可以使神经网络随意逼近复杂函数。没有激活函数带来的非线性，多层神经网络和单层无异。防止梯度消失或者爆炸。1.Sigmoidsigmoid激活函数：函数公式如下：求导函数图像如下：输入数据范围：[0，∞)优点： Sigmoid的取值范围在(0, 1)，而...
复制链接

扫一扫