分类目录:《机器学习中的数学》总目录
相关文章:
· 激活函数:基础知识
· 激活函数(一):Sigmoid函数
· 激活函数(二):双曲正切函数(Tanh函数)
· 激活函数(三): 线性整流函数(ReLU函数)
· 激活函数(四):Leaky ReLU函数
· 激活函数(五):ELU函数
· 激活函数(六):Parametric ReLU(PReLU)函数
· 激活函数(七):Softmax函数
· 激活函数(八):Swish函数
· 激活函数(九):Maxout函数
· 激活函数(十):Softplus函数
· 激活函数(十一):Softsign函数
· 激活函数(十二):高斯误差线性单元(GELUs)
Swish 的设计受到了 LSTM 和高速网络中gating的sigmoid函数使用的启发。我们使用相同的gating值来简化gating机制,这称为self-gating。
Swish
(
x
)
=
x
∗
S
i
g
m
o
i
d
(
x
)
\text{Swish}(x)=x*Sigmoid(x)
Swish(x)=x∗Sigmoid(x)
self-gating的优点在于它只需要简单的标量输入,而普通的gating则需要多个标量输入。这使得诸如Swish之类的self-gated激活函数能够轻松替换以单个标量为输入的激活函数(如:ReLU),而无需更改隐藏容量或参数数量。
Swish函数的特点
- 有助于防止慢速训练期间,梯度逐渐接近0并导致饱和
- 导数恒大于0。
- 平滑度在优化和泛化中起了重要作用。
Swish函数的图像: