各种激活函数

最新推荐文章于 2024-07-10 11:00:54 发布

yogaJ

最新推荐文章于 2024-07-10 11:00:54 发布

阅读量317

点赞数

分类专栏：神经网络文章标签：激活函数的学习与实现

本文链接：https://blog.csdn.net/ttzm0728/article/details/100929995

版权

神经网络专栏收录该内容

1 篇文章 0 订阅

订阅专栏

激活函数

1. 激活函数简介
2. Sigmod
- 代码实现
3 tanh
- 代码实现
4 ReLU, P-ReLU, Leaky-ReLU
- 代码实现
5 ELU
6 Maxout（参考）
- 6.1 示例1
- 6.2 示例2
7 激活函数表
8 参考链接

Sigmod、tanh、Relu、maxout

1. 激活函数简介

作用：引入非线性因素，为网络提供非线性建模能力。

如果没有激活函数，则网络就仅能表达线性映射，此时即使有再多的隐藏层，其整个网络跟单层神经网络也是等价的。

也可以认为：只有加入了激活函数，深度神经网络才具备了分层的非线性映射学习能力。

性质：
可微性：当优化方法是基于梯度的时候，这个性质是必须的。
单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。
输出值的范围： 当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著;当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的learning rate。

非线性建模的原因：
我们面对线性可分的数据集的时候，简单的用线性分类器即可解决分类问题。
但是现实生活中的数据往往不是线性可分的，面对这样的数据，一般有两个方法：

（1）引入非线性函数：
激活函数是如何引入非线性因素的呢？
在神经网络中，为了避免单纯的线性组合，我们在每一层的输出后面都添加一个激活函数（sigmoid、tanh、ReLu等等）。

（2）线性变换：
就是把当前特征空间通过一定的线性映射转换到另一个空间，让数据能够更好的被分类。

2. Sigmod

在这里插入图片描述

使用范围最广的一类激活函数，指数函数形状，在物理意义上最接近生物神经元。

作用：
（1）概率输出：（0，1）
（2）输入的归一化，代表：Sigmod的交叉熵损失函数

性质：
连续，光滑，严格单调，以（0，0.5）为中心对称，是一个非常良好的阈值函数。

取值分析：
当x趋近负无穷时，y趋近于0；趋近于正无穷时，y趋近于1；x=0时，y=0.5。当然，在x超出[-6,6]的范围后，函数值基本上没有变化，值非常接近，在应用中一般不考虑。

求导方便：
导数表示为本身的函数：f′(x)=f(x)(1−f(x))f′(x)=f(x)(1−f(x))，计算方便，节省时间。

缺陷（明显的饱和性）：
从图中可以看出，两侧导数逐渐趋近于0.
在这里插入图片描述
满足这种性质的称为软饱和激活函数。

导致的问题（梯度消失）：
sigmoid 的软饱和性，使得深度神经网络在二三十年里一直难以有效的训练，是阻碍神经网络发展的重要原因。
具体来说，由于在后向传递过程中，sigmoid向下传导的梯度包含了一个 f′(x)f′(x) 因子（sigmoid关于输入的导数），因此一旦输入落入饱和区，f′(x)f′(x) 就会变得接近于0，导致了向底层传递的梯度也变得非常小。----越乘越小！
此时，网络参数很难得到有效训练。这种现象被称为梯度消失。一般来说， sigmoid 网络在 5 层之内就会产生梯度消失现象。

偏移现象：
此外，sigmoid函数的输出均大于0，使得输出不是0均值，这称为偏移现象，
这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。
（疑问？偏移现象将对神经网络模型产生什么样的影响？）

代码实现

import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.family']='SimHei'
plt.rcParams['font.sans-serif']=['SimHei']

#更改字体，正确显示中文
import matplotlib
matplotlib.rcParams['font.family']='SimHei'
matplotlib.rcParams['font.sans-serif']=['SimHei']

x=np.linspace(-10,10,100)
y=1/(1+np.exp(-x))
plt.xlabel("x")
plt.ylabel("y")
plt.title("sigmoid function and its derivative image")
plt.plot(x,y,color='r',label="sigmoid")
y=np.exp(-x)/pow((1+np.exp(-x)),2)
plt.plot(x,y,color='b',label="derivative")
plt.legend()#将plot标签里面的图注印上去

plt.show()

结果：
在这里插入图片描述

3 tanh

在这里插入图片描述

与sigmod相比，tanh的输出均值是0，使得其收敛速度比sigmoid快，减少迭代次数。

图中可以看出，tanh也具有软饱和性，会造成梯度消失。

代码实现

import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.family']='SimHei'
plt.rcParams['font.sans-serif']=['SimHei']

#更改字体，正确显示中文
import matplotlib
matplotlib.rcParams['font.family']='SimHei'
matplotlib.rcParams['font.sans-serif']=['SimHei']

x=np.linspace(-10,10,100)
y=(1-np.exp(-2*x))/(1+np.exp(-2*x))
plt.xlabel('x')
plt.ylabel('y')
plt.title("Tanh function and its derivative image")
plt.plot(x,y,color='r',label='Tanh')
y=1-pow((1-np.exp(-2*x))/(1+np.exp(-2*x)),2)
plt.plot(x,y,color='b',label='derivative')
plt.legend()

plt.show()

结果：
在这里插入图片描述

4 ReLU, P-ReLU, Leaky-ReLU

在这里插入图片描述

Rectified Linear Units：线性整流函数。

取值分析：
当x<0，ReLU硬饱和；
当x>0，ReLU不存在饱和问题，能够在x>0时保持梯度不衰减，从而解决梯度消失问题。这让我们能够直接以监督的方式训练深度神经网络，而无需依赖无监督的逐层预训练（？最后一句不太明白）。

缺陷（神经元死亡）：
然而，随着训练的推进，部分输入会落入硬饱和区，导致对应权重无法更新。这种现象被称为“神经元死亡”。训练的时候很"脆弱"。

偏移现象：
与sigmoid类似，ReLU的输出均值也大于0，偏移现象和神经元死亡会共同影响网络的收敛性。

针对在x<0的硬饱和问题，我们对ReLU做出相应的改进，使得：
在这里插入图片描述
ai是（1，+∞）区间内的固定参数。

而P-ReLU认为，α也可以作为一个参数来学习，原文献建议初始化a为0.25，不采用正则。

代码实现

一定要注意，分段函数的取值，x与y一定要对应起来！

import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.family']='SimHei'
plt.rcParams['font.sans-serif']=['SimHei']

#更改字体，正确显示中文
import matplotlib
matplotlib.rcParams['font.family']='SimHei'
matplotlib.rcParams['font.sans-serif']=['SimHei']

x=np.linspace(-2,2,100)
y=x*(x>0)
plt.xlabel('x')
plt.ylabel('y')
plt.title("Relu function and its derivative image")
plt.plot(x,y,color='r',label="Relu")

x=np.linspace(-2,0)
y=np.linspace(0,0)
plt.plot(x,y,color='b')

x=np.linspace(0,2)
y=np.linspace(1,1)
plt.plot(x,y,color='b',label="derivative")

plt.legend()

plt.show()

结果：
在这里插入图片描述

5 ELU

在这里插入图片描述

融合了sigmod和ReLU。
左侧：具有软饱和性；
右侧：无饱和性。

右侧线性部分使得ELU能够缓解梯度消失，
而左侧软饱和能够让ELU对输入变化或噪声更鲁棒。

ELU的输出均值接近于0，所以收敛速度更快。

在 ImageNet上，
不加 Batch Normalization 30 层以上的 ReLU 网络会无法收敛，
PReLU网络在MSRA的Fan-in （caffe ）初始化下会发散，
而 ELU 网络在Fan-in/Fan-out下都能收敛。

6 Maxout（参考）

在这里插入图片描述
Maxout模型实际上也是一种新型的激活函数，在前馈式神经网络中，Maxout的输出即取该层的最大值，在卷积神经网络中，一个Maxout feature map可以是由多个feature map取最值得到。
maxout的拟合能力是非常强的，它可以拟合任意的的凸函数。但是它同dropout一样需要人为设定一个k值。

6.1 示例1

为了便于理解，假设有一个在第i层有2个节点第（i+1）层有1个节点构成的神经网络。
在这里插入图片描述

此时网络形式上就变成上面的样子，用公式表现出来就是：
z1 = W1.X+b1;
z2 = W2.X+b2;
z3 = W3.X+b3;
z4 = W4.X+b4;
z5 = W4.X+b5;
out = max(z1,z2,z3,z4,z5);

也就是说第（i+1）层的激活值计算了5次，可我们明明只需要1个激活值，那么我们该怎么办？其实上面的叙述中已经给出了答案，取这5者的最大值来作为最终的结果。

总结：
maxout明显增加了网络的计算量，使得应用maxout的层的参数个数成k倍增加，原本只需要1组就可以，采用maxout之后就需要k倍了。

6.2 示例2

再叙述一个稍微复杂点的应用maxout的网络，网络图如下：
在这里插入图片描述
对上图做个说明，第i层有3个节点，红点表示，而第（i+1）层有4个结点，用彩色点表示，此时在第（i+1）层采用maxout（k=3）。我们看到第（i+1）层的每个节点的激活值都有3个值，3次计算的最大值才是对应点的最终激活值。我举这个例子主要是为了说明，决定结点的激活值的时候并不是以层为单位，仍然以节点为单位。

7 激活函数表

在这里插入图片描述

8 参考链接

[1] https://www.cnblogs.com/missidiot/p/9378079.html
[2] https://www.cnblogs.com/junjie_x/p/8419604.html
[3] https://blog.csdn.net/weixin_43077261/article/details/97285284