右饱和:
当x趋向于正无穷时,函数的导数趋近于0,此时称为右饱和。
左饱和:
当x趋向于负无穷时,函数的导数趋近于0,此时称为左饱和。
饱和函数和非饱和函数:
当一个函数既满足右饱和,又满足左饱和,则称为饱和函数,否则称为非饱和函数。
常用的饱和激活函数和非饱和激活函数:
饱和激活函数有如Sigmoid和tanh,非饱和激活函数有ReLU;相较于饱和激活函数,非饱和激活函数可以解决“梯度消失”的问题,加快收敛。
下面我们进行分析:
Sgimoid函数:
s
i
g
m
o
i
d
(
x
)
=
1
1
+
e
−
x
sigmoid(x)=\frac{1}{1+e^{-x}}
sigmoid(x)=1+e−x1,其导数为
s
i
g
m
o
i
d
(
x
)
=
e
−
x
(
1
+
e
−
x
)
2
sigmoid(x)=\frac{e^{-x}}{(1+e^{-x})^2}
sigmoid(x)=(1+e−x)2e−x,图像如下:
可以看出sigmoid的导数最大值为0.25,在进行反向传播时,各层的梯度(均小于0.25)相乘很容易造成梯度为0,也就是“梯度消失”。
tanh函数:
t
a
n
h
(
x
)
=
e
x
−
e
−
x
e
x
+
e
−
x
tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}
tanh(x)=ex+e−xex−e−x,其导数为
4
e
2
x
(
e
2
x
+
1
)
2
\frac{4e^{2x}}{(e^{2x}+1)^2}
(e2x+1)24e2x,图像如下:
可以看出,相较于Sigmoid函数有所改善,但导数仍小于1,不能避免梯度消失的情况。
ReLU函数:
该函数与其导函数的图像如下
可以看出ReLu的导函数在正数部分为1,不会造成梯度消失和梯度爆炸。但反向传播时一旦学习率没有设置好,使得某个神经元的ReLu 输入为负数,则会导致该神经元不再更新,这就是神经元死亡的现象,ReLu有一些变体对该问题进行了处理。
本文参照:https://blog.csdn.net/qq_42422981/article/details/89561955,该文中对sigmoig、tanh、ReLu及其变种进行了讲解,大家可以参考一下。