激活函数汇总简介_isru 和 soft plus激活函数的定义-CSDN博客

本文链接：https://blog.csdn.net/LeviLizhi/article/details/142179319

文章目录

激活函数？

激活函数（Activation Function），就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。

使用非线性的激活函数将非线性特性引入到到网络中。

激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

一个节点的激活函数(Activation Function)定义了该节点在给定的输入或输入的集合下的输出。神经网络中的激活函数用来提升网络的非线性（只有非线性的激活函数才允许网络计算非平凡问题），以增强网络的表征能力。对激活函数的一般要求是：必须非常数、有界、单调递增并且连续，并且可导。

在实际选择激活函数时并不会严格要求可导，只需要激活函数几乎在所有点可导即可，即在个别点不可导是可以接受的。另外，其导数尽可能的大可以帮助加速训练神经网络，否则导数过小会导致网络无法继续训练下去。

Sigmoid

函数式：
$\frac{1}{1+e^{-x}}$
求导：
$\begin{equation} \begin{aligned} f(x) &= (1+e^{-x})^{-1} \\ f'(x) &= -1 *(1+e^{-x})^{-2} * (1+e^{-x})' \\ &=(1+e^{-x})^{-2} * e^{-x} \\ &= \frac{1+e^{-x}-1}{(1+e^{-x})^2} \\ &= \frac{1+e^{-x}}{(1+e^{-x})^2} - \frac{1}{(1+e^{-x})^2} \\ &= \frac{1}{1+e^{-x}} - \frac{1}{(1+e^{-x})^2} \\ &= \frac{1}{1+e^{-x}} * (1 - \frac{1}{1+e^{-x}}) \\ &= f(x) * (1-f(x)) \end{aligned} \end{equation}$

优势是能够控制数值的幅度，在深层网络中可以保持数据幅度不会出现大的变化;而ReLU不会对数据的幅度做约束。

问题:

饱和的神经元会"杀死"梯度，指离中心点较远的x处的导数接近于0，容易就会出现梯度消失的情况，停止反向传播
sigmoid函数在变量取绝对值非常大的正值或负值时会出现饱和现象，意味着函数会变得很平，并且对输入的微小改变会变得不敏感。的学习过程。
sigmoid的输出不是以0为中心，而是0.5，这样在求权重w的梯度时，梯度总是正或负的。
指数计算耗时

Sigmoid Weighted Liner Unit(SiLU)

Swish包含了SiLU，换句话说SiLU是Swish的一种特例:
$f(x)=x\cdot \sigma(x) \qquad\qquad f^{'}(x)=f(x)+\sigma(x)(1-f(x))$

silU导

softsign

数学表达式：
$f(x)=\frac{x}{1+|x|}$
导数：
$f'(x)=\frac{1}{(1+|x|)^2}$
在这里插入图片描述

Tanh:双曲正切函数

函数式：
$\frac{e^x - e^{-x}}{e^x+e^{-x}}$
tanh 函数是sigmoid函数的一种变体，以0点为中心。取值范围为 [-1,1] ，而不是sigmoid函数的 [0,1] 。

你可能会想平移使得曲线以0点为中心，那么为什么还要收缩呢? 如果不拉伸或收缩得到 $f(x)={e^x-1\over e^x+1}$

求导：
$\begin{equation} \begin{aligned} tanh'(x) &= [(e^x-e^{-x}) * (e^x + e^{-x})^{-1}]' \\ &= (e^x-e^{-x})'*(e^x + e^{-x})^{-1} + [(e^x + e^{-x})^{-1}]' * (e^x - e^{-x}) \\ &= (e^x + e^{-x}) * (e^x + e^{-x})^{-1} - (e^x + e^{-x})^{-2} * (e^x - e^{-x}) * (e^x - e^{-x}) \\ &= 1 - \frac{(e^x - e^{-x})^2}{(e^x+e^{-x})^2} \\ &= 1 - \tanh{(x)}^2 \end{aligned} \end{equation}$

tanh与sigmoid

蓝色 sigmoid - 红色 tanh ### 为什么tanh相比sigmoid收敛更快:

梯度消失问题程度
$\tanh'( x ) = 1-\tanh( x )^2 \in (0,1)$

$\text{sigmoid: } s'(x)=s(x)\times(1-s(x))\in(0,1/4)$

可以看出 $t anh (x)$ 的梯度消失问题比 $s i g m o i d$ 要轻。梯度如果过早消失，收敛速度较慢。
以零为中心的影响
如果当前参数 $w_0,w_1)$ 的最佳优化方向是 $d_0, -d_1)$ ，则根据反向传播计算公式，我们希望$ x_0 $和$ x_1$ 符号相反。但是如果上一级神经元采用 Sigmoid 函数作为激活函数，sigmoid不以0为中心，输出值恒为正，那么我们无法进行最快的参数更新，而是走 Z 字形逼近最优解。[4]

tanh仍然存在梯度饱和与exp计算复杂的问题。

$tanh^{-1}$ :反正切函数

$f(x)=tan^{-1}(x)\qquad\qquad f^{'}(x)=\frac{1}{x^2+1}$
反正切

ISRU: 反平方根函数

$f(x)=\frac{x}{\sqrt{1+\alpha x^2}}\qquad \qquad f^{'}(x)=(\frac{1}{\sqrt{1+\alpha x^2}})^3$

isru

isru导

ReLU

paper: Deep Sparse Rectifier Neural Networks

函数式：
$f(x) = \max{(0,x)} \\$
求导：
$\begin{cases} 1,\quad x\geq 0\\ 0, \quad x<0 \end{cases}$

1.ReLU解决了梯度消失的问题，至少x在正区间内，神经元不会饱和。

2.由于ReLU线性、非饱和的形式，在SGD中能够快速收敛。

3.计算速度要快很多。ReLU函数只有线性关系，不需要指数计算，不管在前向传播还是反向传播，计算速度都比sigmoid和tanh快。

ReLU 的稀疏性（摘自这里）：

当前，深度学习一个明确的目标是从数据变量中解离出关键因子。原始数据（以自然数据为主）中通常缠绕着高度密集的特征。然而，如果能够解开特征间缠绕的复杂关系，转换为稀疏特征，那么特征就有了鲁棒性（去掉了无关的噪声）。稀疏特征并不需要网络具有很强的处理线性不可分机制。那么在深度网络中，对非线性的依赖程度就可以缩一缩。一旦神经元与神经元之间改为线性激活，网络的非线性部分仅仅来自于神经元部分选择性激活。
对比大脑工作的 95% 稀疏性来看，现有的计算神经网络和生物神经网络还是有很大差距的。庆幸的是，ReLu 只有负值才会被稀疏掉，即引入的稀疏性是可以训练调节的，是动态变化的。只要进行梯度训练，网络可以向误差减少的方向，自动调控稀疏比率，保证激活链上存在着合理数量的非零值。

ReLU 缺点

坏死: ReLU 强制的稀疏处理会减少模型的有效容量（即特征屏蔽太多，导致模型无法学习到有效特征）。由于 ReLU 在 x <0 时梯度为 0，这样就导致负的梯度在这个 ReLU 被置零，而且这个神经元有可能再也不会被任何数据激活，称为神经元 “坏死”。
无负值: ReLU 和 sigmoid 的一个相同点是结果是正值，没有负值。

ReLU 变种

Noisy ReLU[1]

ReLU可以被扩展以包括高斯噪声(Gaussian noise):
$f(x)=\max(0,x+Y), Y\sim N(0,\sigma(x))$
Noisy ReLU 在受限玻尔兹曼机解决计算机视觉任务中得到应用。

Leaky-ReLU和RReLU

带泄露线性整流函数(Leaky-ReLU) paper: Rectifier Nonlinearities Improve Neural Network Acoustic Models

函数式：
$\begin{equation} f(x)= \begin{cases} x, & \text{$x\geq 0$}\\ x \over\alpha, & \text{$x < 0$} \end{cases} \end{equation}$

求导：

$\begin{equation} f'(x)= \begin{cases} 1, & \text{$x\geq 0$}\\ 1 \over\alpha, & \text{$x < 0$} \end{cases} \end{equation}$
当固定为 $\alpha \in (1,+\infty)$ 时,是Leaky ReLU。

当 $\alpha$ 服从高斯分布中随机产生时称为Random Rectifier（RReLU：带泄露随机线性整流函数）, $\alpha \sim U(l,u),l<u;l,u \in [0,1)$

“随机纠正线性单元”RReLU也是Leaky ReLU的一个变体。在RReLU中，负值的斜率在训练中是随机的，在之后的测试中就变成了固定的了。RReLU的亮点在于，在训练环节中， $\alpha$ 是从一个均匀的分布 $U (l, u)$ 中随机抽取的数值。起到了一定的正则化效果。

优点:

不会过拟合(saturate)
计算简单有效
比sigmoid/tanh收敛快

缺点：

1.Leaky ReLU函数中的 $\alpha$ 需要通过先验知识人工赋值。

relu变种

PReLU:参数化线性整流函数

何凯明paper 《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》

论文讲解

参数整流线性单元(Parametric Rectified linear unit，PReLU)，用来解决ReLU带来的神经元坏死的问题。当 $x < 0$ 时, $f(x)=\alpha x$ ,其中 $\alpha$ 非常小,这样可以避免在 $x < 0$ 时,不能够学习的情况：
$f(x_i)=max(α_ix_i,x_i)$

其中 $\alpha_i$ 不是固定的超参数，而是通过反向传播学习出来的， $i$ 表示不同通道，默认是对所有通道的，如果参数有通道数，则不同的a是对应不同通道。

论文中 $\alpha_i$ 被初始化为0.25

Leaky ReLU $\alpha$ 是固定的; PReLU 的 $\alpha$ 不是固定的, 通过训练得到; RReLU 的 $\alpha$ 是从一个高斯分布中随机产生, 并且在测试时为固定值，与 Noisy ReLU 类似（但是区间正好相反）。

ReLU 系列对比：

深度学习——PReLU激活

pytorch实现

CLASStorch.nn.PReLU(num_parameters=1, init=0.25, device=None, dtype=None)

PReLU

ReLU6

paper: MobileNetV2: Inverted Residuals and Linear Bottlenecks

ReLU 相比 sigmoid 和 tanh 没有对上界设限。在实际使用中，可以设置一个上限, 参考这个上限的来源论文: Convolutional Deep Belief Networks on CIFAR-10. A. Krizhevsky

函数式：

$R e LU 6 (x) = min (6, ma x (0, x))$
即当 x > 6时，其导数也为0。

求导：

$\begin{cases} 1,\quad 0\leq x\leq 6\\ 0, \quad others \end{cases}$
relu6的好处：
1）可以让模型更早地学到稀疏特征(相对于relu而言，更容易出现权重不更新的现象，因为取值一旦小于0或超过6，则权重停止更新，直接输出常数0或6，训练的过程中可能出现的情况就是有用的输入特征和权重不断得到更新，无用的特征和权重停止更新输出常数，ps：relu也是可以学到稀疏特征的)；
2）可以防止数值爆炸。
3）增强浮点数的小数位表达能力。因为整数位最大是6，所以只占3个bit，其他bit全部用来表达小数位。

ELU：指数线性单元

$\begin{equation} f(x)= \begin{cases} \alpha(e^x-1), & \text{$x\leq 0$} \\ x, & \text{$x\gt 0$} \end{cases} \end{equation}$

$\begin{equation} f'(x)= \begin{cases} f(x)+\alpha, & \text{$x\leq 0$} \\ 1, & \text{$x\gt 0$} \end{cases} \end{equation}$

exponential linear unit， (Fastand accurate deep network learning by exponential linear units (elus))该激活函数由 Djork 等人提出, 被证实有较高的噪声鲁棒性, 同时能够使得使得神经元
的平均激活均值趋近为 0, 同时对噪声更具有鲁棒性。这里的 $\alpha$ 是一个人工指定的超参数。

优点：

ELU包含了ReLU的所有优点。
神经元不会出现死亡的情况。
ELU激活函数的输出均值是接近于零的。

缺点：由于需要计算指数, 计算量较大。 ELU

SELU:扩展指数线性函数

论文: 自归一化神经网络 (Self-Normalizing Neural Networks) 中提出只需要把激活函数换成 SELU 就能使得输入在经过一定层数之后变成固定的分布。参考对这篇论文的讨论.

SELU 是给 ELU 乘上系数 λ, 即 $\rm{SELU}(x)=\lambda\cdot \rm{ELU}(x)$
$f(x)=\lambda \begin{cases} \alpha(e^x-1) & x \le 0 \\ x & x>0 \end{cases}$

其中 $\lambda$ ：1.0507009873554804934193349852946

$\alpha$ ：1.6732632423543772848170429916717

SELU 必须使用 LeCun Normal 的权重初始化方法，如果要使用 dropout，则必须使用称为 Alpha Dropout 的特殊版本。

特点：

它的值有正有负：在整个ReLU的family里里面，除了一开始最原始的ReLU以外都有负值，所以这个特性还好；
有 Saturation Region：其他的ReLU他们没有Saturation Region（饱和阶段），但是他有Saturation Region，不过ELU其实也有Saturation Region，因为SELU就只是ELU乘上一个 $\lambda$ 而已;乘上这个有 $\lambda$ 什么不同？乘上 $\lambda$ ，让它在某些区域的斜率是大于1的，意味着说你进来一个比较小的变化，通过Region以后，他把你的变化放大1.0507700987倍，所以它的input能是会被放大的，而且这是他一个ELU的没有的特色。

代码：

def selu(x):
  with ops.name_scope('elu') as scope:
    alpha = 1.6732632423543772848170429916717
    scale = 1.0507009873554804934193349852946
    return scale*tf.where(x>0.0,x,alpha*tf.nn.elu(x))

13.激活函数(SELU)

GELU:高斯误差线性单元

GELU（高斯误差线性单元）是一个非初等函数形式的激活函数，是 RELU 的变种。由 16 年论文 Gaussian Error Linear Units (GELUs) 提出，随后被 GPT-2、BERT、RoBERTa、ALBERT 等 NLP 模型所采用。论文中不仅提出了 GELU 的精确形式，还给出了两个初等函数的近似形式。函数曲线如下：

GELU ( $\mu=0, \sigma=1$ ), ReLU and ELU ( $\alpha=1$ )

dropout思想和relu的结合，对于linear层的每一个输出，假设linear层的输出服从标准正态分布，使用标准正态分布的累积概率函数计算单个输出的概率值，然后使用一个伯努利分布
$\begin{align} GELU(x)&=xP(X \leq x)=x \Phi(x)\end{align}$
产生随机产生1或0，和relu不同的地方在于，relu对于小于0的输出是置0的，而GELU则是有一定的概率不置0。

RELU 及其变种与 Dropout 从两个独立的方面来决定网络的输出，为了把两者合二为一，在网络正则化方面，Dropout 将神经单元输出随机置 0（乘 0），Zoneout 将 RNN 的单元随机跳过（乘 1）。两者均是将输出乘上了服从伯努利分布（二项分布）的变量 m ~ Bernoulli§，其中 p 是指定的确定的参数，表示取 1 的概率。

论文中希望 p 能够随着输入 x 的不同而不同，在 x 较小时以较大概率将其置 0。由于神经元的输入通常服从正态分布，尤其是在加入了 Batch Normalization 的网络中，因此令 p 等于正态分布的累积分布函数即可满足。正态分布的概率密度函数：
$f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\;e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}$
累积分布函数：
$\frac{1}{\sigma\sqrt{2\pi}} \int_{-\infty}^x \exp \left( -\frac{(t - \mu)^2}{2\sigma^2} \ \right)\, dt$
正态分布的累积分布函数曲线与 sigmoid 曲线相似。

假设输入服从标准正态分布： $X\sim \mathcal N(0,1)$ ，标准正态分布的累积分布函数习惯上记为 $\Phi(x)=P(X\le x)$

然而激活函数由于在训练和测试时使用方式完全相同，所以是需要有确定性的输出，这点与 Dropout 不同（Dropout 在测试时并不随机置 0）。由于概率分布的数学期望是确定值，因此改为求输出的期望： $E[mx]=xE[m]=x\Phi(x)$ ，即对输入乘上伯努利分布的期望值 $p=\Phi(x)$

$\begin{align} \Phi(x) =& \frac{1}{\sqrt{2\pi}} \int_{-\infty}^x \exp\left(-\frac{t^2}{2}\right) \, dt \\ =& {1\over 2} + \frac{1}{\sqrt{2\pi}} \int_0^x \exp\left(-\frac{t^2}{2}\right) \, dt \tag{正态分布曲线下面积为1，一半则为0.5} \\ =& {1\over 2}\left(1 + \frac{2}{\sqrt{\pi}} \int_0^x \exp\left(-({t\over \sqrt 2})^2\right) \, {dt\over \sqrt 2}\right) \\ =& {1\over 2}\left(1 + \frac{2}{\sqrt{\pi}} \int_0^{x\over\sqrt 2} \exp\left(-z^2\right) \, dz\right) \\ =& {1\over 2}\left(1+\rm{erf}\left({x\over \sqrt 2}\right)\right) \end{align}$
其中的变换包含这个等式： ${1\over n}\int_0^x f(t/n)dt=\int_0^{x/n}f(t)dt$ ，将x看作一个固定值，则不难理解。

在数学中，误差函数（也称之为高斯误差函数）定义如下：
${\operatorname {erf} (x)={\frac {1}{\sqrt {\pi }}}\int _{-x}^{x}e^{-t^{2}}\,\mathrm {d} t={\frac {2}{\sqrt {\pi }}}\int _{0}^{x}e^{-t^{2}}\,\mathrm {d} t}$
$er f (x)$ 与 $tanh(x) $比较接近，与 $2\left(\sigma(x)-\frac{1}{2}\right)$ 也有相似的曲线，但是相对差别较大一些。在代码实现中可以用近似函数来拟合 $er f (x)$ 。论文给出的两个近似如下：
$\begin{align} x\Phi(x) &\approx x\sigma(1.702 x) \\ x\Phi(x) &\approx \frac{1}{2} x \left[1 + \tanh\left(\sqrt{\frac{2}{\pi}}\left(x + 0.044715 x^3\right)\right)\right] \end{align}$
不过很多框架已经有精确的 erf 计算函数了，可以直接使用，参考代码如下：

# GPT-2 的 GELU 实现
def gelu(x):
    return 0.5*x*(1+tf.tanh(np.sqrt(2/np.pi)*(x+0.044715*tf.pow(x, 3))))
# BERT 的 GELU 实现
def gelu(input_tensor):
    cdf = 0.5 * (1.0 + tf.erf(input_tensor / tf.sqrt(2.0)))
    return input_tesnsor*cdf

GELU vs Swish

GELU 与 Swish 激活函数（x · σ(βx)）的函数形式和性质非常相像，一个是固定系数 1.702，另一个是可变系数 β（可以是可训练的参数，也可以是通过搜索来确定的常数），两者的实际应用表现也相差不大。

SReLU:S型线性整流激活函数

**SReLU（S-shaped Rectified Linear Activation Unit，S型修正线性激活单元）**由三个分段线性函数组成。系数作为参数，将在网络训练中学习(paper： Deep Learning with S-shaped Rectified Linear Activation Units)。
$f_{t_l,a_l,t_r,a_r}(x)= \begin{cases} t_l+a_l(x-t_l),\quad x\leq t_l\\ x, \quad t_l \leq x \leq t_r\\ t_r+a_r(x-t_r), \quad x\geq t_r \end{cases}$
值域： $(-\infty, +\infty)$

ISRLU:反平方根线性函数

反平方根线性函数表达式：
$\begin{cases} \begin{array}{ll}\frac{x}{\sqrt{1+\alpha x^2}},x<0\\x,x\ge 0 \end{array} \end{cases}$
isrlu

求导：
$\begin{cases} \begin{array}{ll}(\frac{1}{\sqrt{1+\alpha x^2}})^3,x<0\\1,x\ge 0 \end{array} \end{cases}$

isrlu导

CeLU

$CELU(x)=max(0,x)+min(0,\alpha*(exp(x/a)-1))$

relu的复合型

Dynamic ReLU（2020）

Parper:[2003.10027] Dynamic ReLU (arxiv.org)

https://blog.csdn.net/qq_38253797/article/details/119007986

softplus

Softplus函数是Logistic-Sigmoid函数原函数:
$Softplus(x)=ln(1+e^x)$
加了1是为了保证非负性。Softplus可以看做是ReLU函数的一个平滑版本。红色的即为ReLU。

Softplus 函数其导数刚好是Logistic 函数。Softplus 函数虽然也具有单侧抑制、宽兴奋边界的特性，却没有稀疏激活性。

求导：
$Softplus'(x)=\frac{e^x}{1+e^x}$
softplus1

GLU函数+GTU函数

GLU、GTU 单元是基于Gate mechanism的，gate units有助于深度网络建模。

门控线性单元Gated linear units是在Language model with gated convolutional network中提出。

Tanh激活函数和GTU都存在梯度消失的问题，因为即使是GTU，当神经元的激活处于饱和区时，组成结构部分都会削弱梯度值。相反，GLU和Relu不存在这样的问题。GLU和Relu都拥有线性的通道，可以使梯度很容易通过激活的神经元，反向传播且不会减小。因此，采用GLU或Relu做为激活，训练时收敛速度更快

（1）GTU（Gated Tanh Unit）

表达式为： $\otimes \sigma(X*V+c)$

组成结构：Tanh激活单元： $t anh (X * W + b)$ ，加上一个Sigmoid激活单元： $\sigma(X*V+c)$ ，构成的gate unit，就构成了GTU单元。

（2）GLU（Gated Liner Unit）

表达式为： $\otimes \sigma(X * V + c)$

组成结构：Relu激活单元： $(X * W + b)$ ，加上一个Sigmoid激活单元： $\sigma(X * V + c)$ ，构成的gate unit，就构成了GLU单元

首先我们可以通过堆叠CNN来标识长文本，提取更高层、更抽象的特征，而且相比LSTM而言，我们需要的op更少（CNN需要O(N/k)个op，而LSTM将文本视为序列需要O(N)个op，其中N为文本长度，k为卷积核宽度），这样一来，我们需要的非线性操作也更少，有效地降低了梯度弥散的现象，使模型收敛和训练变得更加简单。

此外，LSTM中模型下一时刻的输出依赖于前一个时刻的隐藏层状态，无法实现模型并行化。但是，CNN无需这种依赖，可以方便的实现并行化，从而实现计算速度的提升。最后，本文中提出的线性门控单元不仅有效地降低了梯度弥散，而且还保留了非线性的能力。

GLU（Gated Linear Units）

GLU, sparsemax, GELU激活函数

激活函数：Sigmoid，Tanh，Softmax，Swish，Relu系列，GLU+GTU

APL:自适应分段线性函数

$f(x)=max(0,x)+\sum_{s=1}^{S}a^s_{i}max(0,-x+b^s_i)\qquad\qquad f^{'}(x)=H(x)-\sum^{S}_{s=1}a^s_iH(-x+b^s_i)$

弯曲恒等函数

$f(x)=\frac{\sqrt{x^2+1}-1}{2}+x\qquad\qquad f^{'}(x)=\frac{x}{2\sqrt{x^2+1}}+1$

弯曲恒等函数

弯曲恒等函数导

SoftExponential

函数表达式：
$f(x)=\begin{cases}\begin{array} {ll} -\frac{ln(1-\alpha(x+\alpha))}{\alpha}, \alpha < 0\\ x,\alpha=0\\ \frac{e^{\alpha x}-1}{\alpha},\alpha >0 \end{array} \end{cases}$
SoftExponential

导数：
$f'(x)=\begin{cases} \begin{array} {ll} \frac{1}{1-\alpha(\alpha+x)},\alpha < 0\\ e^{\alpha x},\alpha \ge 0 \end{array} \end{cases}$
SoftExponential导

正弦函数

$sin(x)\qquad\qquad f^{'}(x)=cos(x)$

Sinc函数

函数表达式：
$f(x)=\begin{cases}\begin{array} {ll} 1,x=0 \\ \frac{sin(x)}{x},x\ne 0 \end{array}\end{cases}$
Sinc函数

求导：
$f'(x)=\begin{cases}\begin{array} {ll} 0,x=0 \\ \frac{cos(x)}{x}-\frac{sin(x)}{x},x\ne 0 \end{array}\end{cases}$
Sinc函数导

高斯函数

$f(x)=e^{-x^2} \qquad\qquad f^{'}(x)=-2xe^{-x^2}$

高斯函数

高斯函数导

ACON：(Activate Or Not)激活函数

Activate or Not: Learning Customized Activation

CVPR 2021 | 自适应激活函数ACON: 统一ReLU和Swish的新范式

本文进一步分析ReLU的一般形式Maxout系列激活函数，从而得到Swish的一般形式、简单且有效的ACON激活函数。

ACON激活函数 CVPR2021

Swish

paper : Searching for Activation Functions(Prajit Ramachandran,Google Brain 2017)

SEARCHING FOR ACTIVATION FUNCTIONS翻译

函数式：
$\cdot sigmoid(\beta x)$
$\beta$ 是个常数或可训练的参数，Swish 具备无上界有下界、平滑、非单调的特性。

当 $\beta$ = 0时,Swish变为线性函数 $\over 2}$

$\beta → \infty,\sigma(x)=(1+e^{−x}){−1} $为0或1，Swish变为ReLU: $f (x) = 2 ma x (0, x)$

所以Swish函数可以看做是介于线性函数与ReLU函数之间的平滑函数。

Swish 在深层模型上的效果优于 ReLU。例如，仅仅使用 Swish 单元替换 ReLU 就能把 Mobile NASNetA 在 ImageNet 上的 top-1 分类准确率提高 0.9%，Inception-ResNet-v 的分类准确率提高 0.6%。

求导推导：
$\begin{equation} \begin{aligned} swish(x) &= x * (1 + e^{-x})^{-1}\\ swish'(x) &=x' * (1+e^{-x})^{-1}+ [(1+e^{-x})^{-1}]'*x \\ &= 1 * (1+e^{-x})^{-1}+ x * [-(1+e^{-x})^{-2} * (- e^{-x})] \\ &= \frac{1}{1+e^{-x}}+ x * \frac{e^{-x}}{(1+e^{-x})^2} \\ &= \frac{1}{1+e^{-x}}+ x * (\frac{1+e^{-x}}{(1+e^{-x})^2} - \frac{1}{(1+e^{-x})^2}) \\ &= \frac{1}{1+e^{-x}}+ \frac{x}{1+e^{-x}} - \frac{x}{(1+e^{-x})^2} \\ &= sigmoid(x)+ x * sigmoid(x) - x * sigmoid(x)^2 \\ &= x * sigmoid(x)+ sigmoid(x)(1- x \cdot sigmoid(x)) \\ &= swish(x)+ sigmoid(x)(1-swish(x)) \end{aligned} \end{equation}$
导数:

当 $\beta=0$ 时,Swish变为线性函数 $={x\over 2}$ .
$\beta \to \infty$ , $σ(x) = (1 + \exp(−x))^{−1}$ 为0或1。 Swish变为ReLU: $f (x) = 2 ma x (0, x)$
所以Swish函数可以看做是介于线性函数与ReLU函数之间的平滑函数。

工程实现:
在TensorFlow框架中只需一行代码: x * tf.sigmoid(beta * x)或tf.nn.swish(x).
在Caffe中使用Scale+Sigmoid+EltWise(PROD)来实现或者合并成一个层。代码参考.

Maxout

论文 Maxout Networks(Goodfellow,ICML2013)

Maxout 可以看做是在深度学习网络中加入一层激活函数层, 包含一个参数 k。这一层相比 ReLU,sigmoid 等, 其特殊之处在于增加了 k 个神经元, 然后输出激活值最大的值。

我们常见的隐含层节点输出：
$h_i(x)=\text{sigmoid}(x^TW_{…i}+b_i)$
而在Maxout网络中，其隐含层节点的输出表达式为：
$h_i(x)=\max_{j\in[1,k]}z_{ij}$
其中 $z_{ij}=x^TW_{…ij}+b_{ij}, W\in R^{d\times m\times k}$

假设网络第i层有2个神经元x1、x2，第i+1层的神经元个数为1个。原本只有一层参数,将ReLU或sigmoid等激活函数替换掉,引入Maxout,将变成两层参数,参数个数增为k倍。

特点：

Maxout的拟合能力非常强，可以拟合任意的凸函数。
Maxout具有ReLU的所有优点，线性、不饱和性。
同时没有ReLU的一些缺点。如：神经元的死亡
maxout激活函数并不是一个固定的函数，不像Sigmod、Relu、Tanh等函数，是一个固定的函数方程
它是一个可学习的激活函数，因为我们W参数是学习变化的。
它是一个分段线性函数：

缺点：
从上面的激活函数公式中可以看出，每个神经元中有两组(w,b)参数，那么参数量就增加了一倍，这就导致了整体参数的数量激增。与常规激活函数不同的是,它是一个可学习的分段线性函数。

然而任何一个凸函数，都可以由线性分段函数进行逼近近似。其实我们可以把以前所学到的激活函数：ReLU、abs激活函数，看成是分成两段的线性函数，如下示意图所示：

maxout-convex-func-approximate!

maxout的拟合能力是非常强的，它可以拟合任意的的凸函数。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合（学过高等数学应该能明白），而maxout又是取k个隐隐含层节点的最大值，这些”隐隐含层"节点也是线性的，所以在不同的取值范围下，最大值也可以看做是分段线性的（分段的个数与k值有关）。

maxout是一个函数逼近器**，**对于一个标准的MLP网络来说，如果隐藏层的神经元足够多，那么理论上我们是可以逼近任意的函数的。类似的，对于maxout 网络也是一个函数逼近器。

实验结果表明Maxout与Dropout组合使用可以发挥比较好的效果。

那么,前边的两种ReLU便是两种Maxout,函数图像为两条直线的拼接， $f(x)=\max(w_1^Tx+b_1,w_2^Tx+b_2)$

深度学习（二十三）Maxout网络学习

hard-Swish

paper : Searching for MobileNetV3

函数式：
$h\text{-}swish[x] = x \frac{ReLU6(x+3)}{6}$

求导推导：
$\begin{equation} \begin{aligned} h\text{-}swish'(x) &= \frac{ReLU6(x+3)}{6} + \frac{x}{6} * ReLU6'(x+3) \\ &= \begin{cases} 1 &\text{if } x > 3 \\ \frac{x+3}{6} + \frac{x}{6} &\text{if } -3 \le x \le 3 \\ 0 &\text{if } x < -3 \\ \end{cases} \end{aligned} \end{equation}$

EliSH与HardEliSH

其他的研究人员通过遗传算法学习到一些新的激活函数The Quest for the Golden Activation Function

Mish

paper : Mish: A self Regularized Non-Monotonic Neural Activation Function论文介绍了一个新的深度学习激活函数，该函数在最终准确度上比Swish(+.494%)和ReLU(+ 1.671%)都有提高。

使用Mish代替ReLU，打破了之前在FastAI全球排行榜上准确性得分记录的一部分。结合Ranger优化器，Mish激活，Flat + Cosine 退火和自注意力层，能够获得12个新的排行榜记录。

函数式：
$\cdot \tanh{(\ln{(1+e^x)})}$

ReLU和Mish的对比，Mish的梯度更平滑

Mish的PyTorch实现，用它替换了ReLU，没有做任何其他更改，并在困难的ImageWoof数据集上使用广泛的优化器(Adam、Ranger、RangerLars、Novograd等)对它进行了测试。Mish在训练稳定性、平均准确率(1-2.8%)、峰值准确率(1.2% - 3.6%)等方面都有了全面的提高，与本文的结果相匹配或超过。

1．无上界有下界:无上界是任何激活函数都需要的特征，因为它避免了导致训练速度急剧下降的梯度饱和，因此加快训练过程。无下界有助于实现强正则化效果（适当的拟合模型)。(这个性质类似于ReLU和 Swish 的性质，其范围是 $[\approx 0.31,\infty])$

2．非单调函数:这种性质有助于保持小的负值，从而稳定网络梯度流。大多数常用的激活函数，如ReLU [$ f(x)= max(0, x)$]，Leaky ReLU[ $f (x) = ma x (0, x), 1$ ]，由于其差分为0，不能保持负值，因此大多数神经元没有得到更新。

3．无穷阶连续性和光滑性:Mish函数是光滑函数，具有较好的泛化能力和结果的有效优化能力，可以提高结果的质量。

求导推导：
$\begin{equation} \begin{aligned} \tanh{(x)} &= \frac{e^x-e^{-x}}{e^x+e^{-x}} \\ &= \frac{e^{2x}-1}{e^{2x}+1} \\ \\ M &= \ln{(1+e^x)} \rightarrow e^M = 1+e^x \\ \\ \tanh{(\ln{(1+e^x)})} &= \tanh{(M)} \\ &= \frac{e^{2M}-1}{e^{2M}+1} \\ &= \frac{(1+e^x)^2-1}{(1+e^x)^2 + 1} \\ \\ Mish(x) &= x * \frac{(1+e^x)^2-1}{(1+e^x)^2 + 1} \\ f&= 1+e^x \rightarrow Mish(x) = x * \frac{f^2-1}{f^2+1} \\ Mish'(x) &= \frac{f^2-1}{f^2+1} + x*(\frac{f^2-1}{f^2+1})' \\ (\frac{f^2-1}{f^2+1})' &= \frac{(f^2-1)'(f^2+1) - (f^2+1)'(f^2-1)}{(f^2+1)^2} \\ (f^2-1)' &= 2e^{2x}+ 2e^x =(f^2+1)' \\ \Downarrow \\ Mish'(x) &= \frac{4f(f-1)}{(f^2+1)^2}*x + \frac{f^2-1}{f^2+1} \end{aligned} \end{equation}$

Mish：一个新的state-of-the-art激活函数，ReLU的继任者

Mish：一个新的SOTA激活函数，ReLU的继任者

Mish: A Self Regularized Non-Monotonic Activation Function 论文笔记

【paper】mish激活函数-技术文章1

可以参考：https://zhuanlan.zhihu.com/p/84418420

使用MNIST测试Swish激活函数的提升效果

在谷歌开源MNIST数据集上试验深度学习SWISH激活函数

YOLOv4 中的 Mish 激活函数

Pytorch 之 MNIST 数据集实现

CNN的Flatten操作 | Pytorch系列（七）

Softmax

函数式：
$p_i = \frac{e^{a_i}}{\sum_{k=1}^N e^{a_k}}$

求导推导：
$\frac{\partial p_j}{\partial a_j} = \begin{cases} p_i(1-p_j) &\text{if } i=j \\ -p_j \cdot p_i &\text{if } i \ne j \end{cases}$

sparsemax

sparsemax是2016年提出的。softmax缺点：每个向量位置都有值。文章From Softmax to Sparsemax:A Sparse Model of Attention and Multi-Label Classification 提出了能够输出稀疏概率的Sparsemax。

这里把输入 z 和某个分布 p 的欧式距离最小化。

一种具体的实现是，

shrink系列

SoftShrink

$\begin{equation} SoftShrink(x)= \begin{cases} x-\lambda, & \text{$x \gt \lambda$} \\ x+\lambda, & \text{$x< - \lambda$} \\0, & \text{$otherwise$} \end{cases} \end{equation}$

HardShrink

$\begin{equation} HardShrink(x)= \begin{cases} x, & \text{$x \gt \lambda$} \\ x, & \text{$x< - \lambda$} \\0, & \text{$otherwise$} \end{cases} \end{equation}$

0点处做平滑处理。

TanhShrink

$\frac{e^x - e^{-x}}{e^x+e^{-x}}$

hard系列：

hard系列基本上都是对原始的函数进行取值限制从而进一步转化为分段线性函数

hardtanh

$\begin{equation} HardTanh(x)= \begin{cases} 1, & \text{$x \gt 1$} \\ -1, & \text{$x< - 1$} \\x, & \text{$otherwise$} \end{cases} \end{equation}$

hardswish

$\frac{ReLU6(x+3)}{6}$

Relu6(hard sigmoid)

$R e LU 6 = min (6, ma x (0, x))$

（对于hard的activation而言，主要目的就两个，一个是稀疏学习，一个是降低计算成本节约精度存储）

激活函数的作用

加入非线性因素
充分组合特征

下面说明一下为什么有组合特征的作用。

一般函数都可以通过泰勒展开式来近似计算, 如sigmoid激活函数中的指数项可以通过如下的泰勒展开来近似计算:
$e^z=1+{1\over 1!}z+{1\over 2!}z^2+{1\over 3!}z^3+o(z^3)$
其中有平方项,立方项及更更高项, 而 $z = w x + b$ , 因此可以看作是输入特征 $x $的组合。以前需要由领域专家知识进行特征组合,现在激活函数能起到一种类似特征组合的作用。 (思想来源: 微博@算法组)

**为什么ReLU,Maxout等能够提供网络的非线性建模能力？**它们看起来是分段线性函数，然而并不满足完整的线性要求：加法 $f (x + y) = f (x) + f (y)$ 和乘法 $f (a x) = a \times f (x)$ 或者写作 $f(\alpha x_1+\beta x_2)=\alpha f(x_1)+\beta f(x_2)$ 。非线性意味着得到的输出不可能由输入的线性组合重新得到（重现）。假如网络中不使用非线性激活函数，那么这个网络可以被一个单层感知器代替得到相同的输出，因为线性层加起来后还是线性的，可以被另一个线性函数替代。

梯度消失与梯度爆炸

梯度消失/爆炸原因及解决办法

原因,浅层的梯度计算需要后面各层的权重及激活函数导数的乘积,因此可能出现前层比后层的学习率小(vanishing gradient)或大(exploding)的问题,所以具有不稳定性。那么如何解决呢?

需要考虑几个方面:

权重初始化
使用合适的方式初始化权重, 如ReLU使用MSRA的初始化方式, tanh使用xavier初始化方式。
激活函数选择
激活函数要选择ReLU等梯度累乘稳定的。
学习率
一种训练优化方式是对输入做白化操作(包括正规化和去相关), 目的是可以选择更大的学习率。现代深度学习网络中常使用Batch Normalization(包括正规化步骤,但不含去相关)。 (All you need is a good init. If you can’t find the good init, use Batch Normalization.)

由于梯度的公式包含每层激励的导数以及权重的乘积,因此让中间层的乘积约等于1即可。但是sigmoid这种函数的导数值又与权重有关系(最大值1/4,两边对称下降),所以含有sigmoid的神经网络不容易解决,输出层的activation大部分饱和,因此不建议使用sigmoid。
ReLU在自变量大于0时导数为1,小于0时导数为0,因此可以解决上述问题。

梯度爆炸
由于sigmoid,ReLU等函数的梯度都在[0,1]以内，所以不会引发梯度爆炸问题。而梯度爆炸需要采用梯度裁剪、BN、设置较小学习率等方式解决。