Pytorch激活函数解析

一直小鸟飞飞飞

已于 2022-04-02 17:24:41 修改

阅读量903

点赞数 6

文章标签：深度学习人工智能神经网络 pytorch 机器学习

于 2021-03-28 19:33:10 首次发布

本文链接：https://blog.csdn.net/weixin_38881440/article/details/115285682

版权

本文根据pytorch里面的源码解析各个激活函数，各个激活函数的python接口定义位于包torch.nn.modules中的activation.py，在包modules的初始化__init__.py中关于激活函数的导入：

1.非线性激活函数的必要性

1.1.加入非线性因素：

如下图所示，是神经元的数学模拟，如果在神经元之间，没有使用非线性激活函数或者使用恒等激活函数，那么神经网络仅仅是将输入线性组合再输出。在这种情况下，多层神经网络与仅仅只有一层隐藏层的神经网络没有任何区别。因此，要想多个隐藏层有意义，必须使用非线性激活函数。

1.2.充分组合特征

一般函数都可以通过泰勒展式来近似计算，如sigmoid激活函数中的指数项可以通过展开得到如下，其中有各个不同的高次项，而y=wx+b是输入特征的线性组合，现在激活函数可以起到类似特征组合的作用；

$e^{x} = 1+\frac{1}{1!}x +\frac{1}{2!}x^{2}+...+\frac{1}{n!}x^{n}+\omicron(x^{n})$

2.各个激活函数说明

下面根据activation.py中的激活函数来一一解析；

2.1 Threshold;

参数包括两个threshold以及value，具体公式如下：
$f(x)=\begin{cases} x & x > threshold \\ value & else \end{cases}$

2.2 ReLU;

在Threshold中，当threshold=value=0的时候，即为
$x)=\begin{cases} x & x >= 0 \\ 0 & x < 0 \end{cases}$

2.3 ReLU6;

在ReLU中，为了防止当输入量过大的时候输出的范围，在ReLU的基础上又增加“正数不能超过6”的限制，即为
$6)=\begin{cases} 6 & x >= 6 \\ x & 0 <= x < 6 \\ 0 & x < 0 \end{cases}$

2.4 ELU;

为了防止当输入为负数的时候，输出值和梯度恒为0，所以，当输入值小于0的时候，输出为指数，即ELU，
$f(x)=\begin{cases} x & x >= 0 \\ \alpha \cdot (e^{x}-1) & x < 0 \end{cases}$

2.5 LeakyReLU;

与ELU同时，当输入值小于0的时候，输出为线性函数，即LeakyReLU, $\alpha$ 是随机设置的固定参数，默认为0.01,

$f(x)=\begin{cases} x & x >= 0 \\ \alpha \cdot x & x < 0 \end{cases}$

2.6 PReLU;

与LeakyReLU的公式是相同的，不过在PReLU里面， $\alpha$ 是可学习的参数，也就是类型是nn.Parameter。在模型的优化过程中，是即时更新的。

2.7 Sigmoid;

Sigmoid函数用于将模型的输出进行归一化到(0,1)区间，普遍应用于分类模型中的预测概率值，
$f(x)=\frac{1}{(1+e^{-x})}$
对应的导函数为
$\dot{f(x)}=f(x) \cdot (1-f(x))$

2.8 HardSigmoid;

在Sigmoid的基础上，又有HardSigmoid，因为当输入值趋向无穷大的时候，输出值趋向于1；当输入值趋向无穷小的时候，输出值趋向于0。所以，顾名思义，HardSigmoid是在Sigmoid的基础上，当输入值超过某个范围强行置1和0，以下为例，
$f(x)=\begin{cases} 0 & x < -3 \\ \frac{x}{6} + \frac{1}{2} & -3 <= x < 3 \\ 1 & x >= 3 \end{cases}$

2.9 Tanh;

Tanh函数将输出归一化到(-1,1)区间，

$f(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$
对应的导函数为
$\dot{f(x)}=1-f^{2}(x)$

2.10 HardTanh;

与HardSigmiod如出一辙，HardTanh示例如下，
$f(x)=\begin{cases} -1 & x < -1 \\ x & -1 <= x < 1 \\ 1 & x >= 1 \end{cases}$

2.11 TanhShrink;

基于Tanh之上，计算输入输出的差值，即为TanhShrink，

$f (x) = x - t a n h (x)$

2.12 Softmax;

Softmax函数用于将输入进行归一化到(0,1)，并且其和为1，普遍应用于分类模型(互斥)的预测概率值，

$f(x_{i})=\frac{e^{x_{i}}}{\sum_{x_{k}}e^{x_k}}$

2.13 LogSoftmax;

LogSoftmax是基于Softmax函数之上，计算其对应的对数值，范围在(-∞,0)用来计算交叉熵损失函数(根据groundtruth的标签取出对应的值即可)，

$f(x_{i})=\log{(\frac{e^{x_{i}}}{\sum_{x_{k}}e^{x_k}})}$

2.14 Softmin;

Softmin是在Softmax的基础上，做相反变换，

$f(x_{i})=\frac{e^{-x_{i}}}{\sum_{x_{k}}e^{-x_k}}$

2.15 HardShrink;

基于HardTanh，当输入值跨越某个范围之后，其值为常量，当处于某个范围之间，为线性变换；HardShrink刚好相反，当处于某个范围之间为常量，当跨越某个范围之后，为线性变换，
$f(x)=\begin{cases} x & x > \lambda,x < -\lambda \\ 0 & otherwise \end{cases}$

2.16 SoftShrink;

基于HardShrink,在两个阶跃点不连续，SoftShrink避免了这种情况，

$f(x)=\begin{cases} x - \lambda & x > \lambda \\ 0 & -\lambda <= x < \lambda \\ x + \lambda & x < -\lambda \end{cases}$

2.17 Softsign;

公式如下，

$f(x)=\frac{x}{1+|x|}$

2.18 Softplus;

公式如下，

$f(x)=\frac{1}{\beta} \cdot \log{(1 +e^{(\beta \cdot x)})}$
当\beta取值为1的时候，
$f(x) = \log{(1+e^{x})}$

2.19 SELU;

在ELU的基础上，增加了因子scale，公式如下，

$\begin{cases} scale \cdot x & x >= 0 \\ scale \cdot \alpha \cdot (e^{x}-1) & x < 0 \end{cases}$

2.20 CELU;

在ELU的基础上，当输入为负数的时候，对指数进行了缩放，公式如下，

$\begin{cases} x & x >= 0 \\ \alpha \cdot (e^{\frac{x}{\alpha}}-1) & x < 0 \end{cases}$

2.21 GELU;

GELU(高斯误差线性单元)是一个非初等函数形式的激活函数，主要应用于GPT-2、BERT等NLP模型中，主题思想是，将ReLU以及变种与Dropout两个独立的方面来合二为一，在网络正则化方面，Dropout将神经元单元输出随机置0。两者都是将输出乘上来服从伯努利分布的变量，即
$\cdot \Phi(x)$
,\Phi(x)为伯努利分布的期望值，假设输入服从标准正态分布，累计分布函数为
$\Phi(x)=P(X<=x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}exp(-\frac{t^{2}}{2}){dt} =\frac{1}{2}(1+erf(\frac{x}{\sqrt{2}}))$
其中erf(x)为高斯误差函数，与tanh比较接近，在论文

中，给出了近似拟合函数，
$\cdot \Phi(x)=x \cdot \sigma(1.702x)$

$\cdot \Phi(x)=\frac{1}{2}x[1+tanh(\sqrt{\frac{2}{\pi}}(x+0.044715x^{3}))]$

2.22 Swish & HardSwish;

Swish公式如下,其中\beta是个常数或者可训练的参数：
$\cdot sigmoid(\beta \cdot x)$
HardSwish公式如下：

$\cdot \frac{ReLU6(x+3)}{6}$

3.参考说明：

本文是作者在实践过程中总结出来的激活函数说明，后续有补充会及时更新，如有不正确之处，欢迎各位大佬批评指正！！！

1.https://zhuanlan.zhihu.com/p/63775557

2.https://blog.csdn.net/grayondream/article/details/102955297

3.https://www.cnblogs.com/makefile/p/activation-function.html

4.https://blog.csdn.net/grayondream/article/details/102955297

一直小鸟飞飞飞

关注

6
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
Pytorch激活函数解析

本文根据pytorch里面的源码解析各个激活函数，各个激活函数的python接口定义位于包torch.nn.modules中的activation.py，在包modules的初始化__init__.py中关于激活函数的导入：1.非线性激活函数的必要性1.1.加入非线性因素：如下图所示，是神经元的数学模拟，如果在神经元之间，没有使用非线性激活函数或者使用恒等激活函数，那么神经网络仅仅是将输入线性组合再输出。在这种情况下，多层神经网络与仅仅只有一层隐藏层的神经网络没有任何区别。因此，要想多个隐藏
复制链接

扫一扫