一种新的激活函数族ACON

最新推荐文章于 2024-05-31 10:01:40 发布

道2024

最新推荐文章于 2024-05-31 10:01:40 发布

阅读量1.5k

点赞数 2

分类专栏：论文解读文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/qq_38406029/article/details/117287178

版权

论文解读专栏收录该内容

63 篇文章

订阅专栏

前言

该论文是旷视收录于CVPR2021的新作，作者提出了一个简单、有效和通用的激活函数称之为 $\mathrm{ACON}$ ，它可以学习并决定是否要激活神经元。作者提出了进一步提出了 $\mathrm{Meta-ACON}$ ，它明确地学习优化非线性(激活)和线性(非激活)之间的参数切换。在图像分类，目标检测以及语义分割的任务上，都使得深度模型有显著的提升效果。
在这里插入图片描述
论文链接：https://arxiv.org/abs/2009.04759
代码链接：https://github.com/nmaac/acon

$\mathrm{ACON}$

光滑最大值函数

考虑标准最大函数 $\max(x_1,\cdots,x_n)$ 的 $n$ 个值，它的光滑性的和可微的性近似为:
$S_{\beta}(x_1,\cdots,x_n)=\frac{\sum\limits_{i=1}^nx_ie^{\beta x_i}}{\sum\limits_{i=1}^ne^{\beta x_i}}$ 其中 $\beta$ 表示连接系数。当 $\beta \rightarrow \infty$ 时，则有 $S_{\beta}\rightarrow 最大值$ ；当 $\beta \rightarrow0$ 时，则有 $S_{\beta}\rightarrow 等差中项$ 。
在神经网络中，许多常见的激活函数是 $\max(\eta_a(x),\eta_b(x))$ 函数的形式，其中 $\eta_a(x)$ 和 $\eta_b(x)$ 表示线性函数。作者的目标是用这个公式来近似激活函数。考虑 $n = 2$ 时的情况，将 $\sigma$ 表示为Sigmoid函数，近似值为:

$\begin{aligned}&S_{\beta}(\eta_{a}(x),\eta_{b}(x))\\=&\eta_{a}(x)\cdot \frac{e^{\beta \eta_{a}(x)}}{e^{\beta \eta_{a}(x)}+e^{\beta\eta_{b}(x)}}+\eta_{b}(x)\cdot \frac{e^{\beta \eta_{b}(x)}}{e^{\beta \eta_{a}(x)}+e^{\beta \eta_{b}(x)}}\\=&\eta_{a}(x)\cdot \frac{1}{1+e^{-\beta(\eta_a(x)-\eta_b(x))}}+\eta_b(x)\cdot \frac{1}{1+e^{-\beta(\eta_b(x)-\eta_a(x))}}\\=&\eta_a(x)\cdot \sigma[\beta(\eta_a(x)-\eta_b(x))]+\eta_b(x)\cdot \sigma[\beta(\eta_b(x)-\eta_a(x))]\\=&(\eta_a(x)-\eta_b(x))\cdot \sigma[\beta(\eta_a(x)-\eta_b(x))]+\eta_b(x)\end{aligned}$

$\mathrm{ACON-A}$

当 $\eta_a(x)=x$ ， $\eta_b(x)=0$ 时，则有 $f_{\mathrm{ACON-A}}(x)=S_{\beta}(x,0)=x\cdot \sigma(\beta x)$ 以上公式即是 $\mathrm{ACON-A}$ 激活函数，也是 $\mathrm{Swish}$ 激活函数。 $\mathrm{Swish}$ 函数是最近被提出的一个新的激活函数。尽管它最近被广泛使用，但对于它为什么提高性能缺乏合理的解释。作者给我们提供了一个新的解释即 $\mathrm{Swish}$ 是 $\mathrm{ReLU}$ 的平滑近似。

$\mathrm{ACON-B}$

作者将 $\mathrm{Maxout}$ 族中的最大值的激活 $\mathrm{Leak\_ReLU}$ ， $\mathrm{PReLU}$ 转换为 $\mathrm{ACON}$ 族中。作者展示了 $\mathrm{PReLU}$ 的近似，它的原始形式为 $\max(x,0) + p \min(x,0)$ 其中 $p$ 是一个可学习的参数，初始化的数值为 $0.25$ 。在大多数情况下 $p < 1$ ，作者将其改写为如下形式： $max(x,px)\quad (p < 1)$ 考虑 $\eta_a(x) = x$ ， $\eta b(x) = px$ ，则可获得新的激活函数 $\mathrm{ACON-B}$ :
$f_{\mathrm{ACON-B}}(x)=S_{\beta}(x,px)=(1-p)x\cdot \sigma[\beta(1-p)x]+px$

$\mathrm{ACON-C}$

$\mathrm{ACON-C}$ 遵循 $\mathrm{ACON-B}$ 的原理，采用了相同的双自变量函数，带有一个额外的超参数，只是在功能上使用超参数缩放。设 $\eta_a(x) = p_1x,\eta_b(x) = p_2x(p_1\neq p_2)$ ，则有
$f_{\mathrm{ACON-C}}(x)=S_{\beta}(p_1x,p_2x)=(p_1-p_2)x\cdot \sigma[\beta(p_1-p_2)x]+p_2x$ 与 $\mathrm{PReLU}$ 一样，令 $\beta=p_1=1$ ， $p_2=0$ 。如下图所示作者对 $\mathrm{ACON-C}$ 的定义是一个非常简单和普遍的情况。

一阶导数的上下界

$\mathrm{ACON-C}$ 的一阶导数计算公式如下所示：

$\begin{aligned}&\frac{d}{dx}[f_{\mathrm{ACON-C}}(x)]\\=&\frac{(p_1-p_2)(1+e^{-\beta(p_1x-p_2x)})}{(1+e^{-\beta(p_1x-p_2x)})^2}+\frac{\beta(p_1-p_2)^2e^{-\beta(p_1x-p_2x)}x}{(1+e^{-\beta(p_1x-p_2x)})^2}+p_2\end{aligned}$

$\lim\limits_{x \rightarrow \infty}\frac{df_{\mathrm{ACON-C}}(x)}{dx}=p_1,\lim\limits_{x\rightarrow -\infty}\frac{df_{\mathrm{ACON-C}}(x)}{dx}=p_2\quad (\beta > 0)$

$\begin{aligned}&\frac{d^2}{dx^2}[f_{\mathrm{ACON-C}}(x)]\\=&\beta\left(p_{2}-p_{1}\right)^{2} \mathrm{e}^{\beta\left(p_{1}-p_{2}\right) x}\cdot \frac{\left(\left(\beta\left(p_{2}-p_{1}\right) x+2\right) \mathrm{e}^{\beta\left(p_{1}-p_{2}\right) x}+\beta\left(p_{1}-p_{2}\right) x+2\right)}{\left(\mathrm{e}^{\beta\left(p_{1}-p_{2}\right) x}+1\right)^{3}} \end{aligned}$
令 $\frac{d^2}{dx^2}[f_{\mathrm{ACON-C}}(x)]=0$ ，则可以得到 $y-2)e^y=y+2$ 其中 $y=(p_1-p_2)\beta x$ ，解以上的方程可知 $\approx \pm 2.39936$ ，可以得到最小和最大值
$\mathrm{maxima}(\frac{d}{dx}[f_{[\mathrm{ACON-C}]}(x)])\approx 1.0998p_1-0.0998p_2$ $\mathrm{minima}(\frac{d}{dx}[f_{\mathrm{ACON-C}}(x)])\approx 1.0998p_x-0.0998p_1$ 这与一阶导数中有固定上界和下界 $(1.0998, - 0.0998)$ 的 $\mathrm{Swish}$ 激活函数不同。在 $\mathrm{Swish}$ 中，超参数 $\beta$ 仅决定一阶导数渐近上界和下界的速度，并且这些界是可学习的，并且由 $\mathrm{ACON-C}$ 中的 $p_1$ 和 $p_2$ 决定。可学习的边界对于简化优化是必不可少的，这些可学习的上界和下届是改善结果的关键。

$\mathrm{Meta-ACON}$

当切换因子 $\beta$ 控制激活为非线性或线性时， $\mathrm{ACON}$ 将激活切换为激活或不激活。当 $\beta \rightarrow \infty$ 时， $f_{\mathrm{ACON-C}}(x)\rightarrow \max(p_1x,p_2x)$ ；当 $\beta \rightarrow 0$ ， $f_{\mathrm{ACON-C}}(x)\rightarrow \mathrm{mean}(p_1x,p_2x)$ 。因此，不同于传统的激活如 $\mathrm{ReLU}$ ， $\mathrm{ACON}$ 允许每个神经元自适应地激活或不激活。这种激活行为有助于提高泛化和传输性能。
在这里插入图片描述
学习开关因子 $\beta$ 明确地以输入样本 $\in \mathbb{R}^{c \times H \times W}:\beta =G(x)$ 为条件。目的不是提出一个具体的结构，而是在生成函数 $G (x)$ 中提供一个设计空间。作者使用一个路由函数来计算以输入特征为条件的 $\beta$ ，其结构可以是分层的，这意味着一层中的元素共享相同的开关因子 $\beta$ ，计算公式为： $\beta = \sigma\sum\limits_{c=1}^C\sum\limits_{h=1}^H\sum\limits^{W}_{w=1}x_{c,h,w}$ 通道中的元素共享相同的开关因子 $\beta_c$ $\beta_c=\sigma W_1W_2\sum\limits_{h=1}^H\sum\limits_{w=1}^{W}x_{c,h,w}$ 其中 $W_1\in \mathbb{R}^{C \times C/r}$ ， $W_2 \in \mathbb{R}^{C/r \times C}$ ，且像素级的开关因子为 $\beta_{c,hw}=\sigma x_{c,h,w}$ 。

实验结果

如下图和下表可以发现：（1） $\mathrm{ACON-A}$ 、\mathrm{ACON-B}和\mathrm{ACON-C}与它们的最大基函数相比，精度都有显著提高，这显示了可微和平滑转换的好处；（2） $\mathrm{ACON-C}$ 的表现优于 $\mathrm{ACON-A (Swish)}$ 和 $\mathrm{ACON-B}$ ，受益于 $\mathrm{ACON-C}$ 一阶导数的自适应的上限和下限；（3） $\mathrm{ACON-A(Swish)}$ 随着模型网络深度的越来越深， $\mathrm{ACON-C}$ 获得了持续的精度提高。
在这里插入图片描述

如下表的结果表明，本文提出的方法在所有网络结构中都获得了显著的性能提升。 $\mathrm{Meta-ACON}$ 在 $\mathrm{MobileNetV1}$ 模型中提高了 $6.7\%$ 。对于更深的玩网络模型中， $\mathrm{Meta-ACON}$ 仍然显示出显著的改进，如在 $\mathrm{ResNet-50}$ 和 $\mathrm{ResNet-101}$ 上分别在精度上分别提高了 $2.0\%$ 和 $1.8\%$ 。在这里插入图片描述
下表显示了本论文提出激活函数与 $\mathrm{ReLU}$ ， $\mathrm{Mish}$ ， $\mathrm{ELU}$ ， $\mathrm{SoftPlus}$ 和 $\mathrm{Swish}$ 这些激活函数的比较。与之前的激活相比， $\mathrm{ACON}$ 和 $\mathrm{Meta-ACON}$ 准确率分别提高了 $2.4\%$ 和 $4.6\%$ 。
在这里插入图片描述
作者在 $\mathrm{Meta-ACON}$ 中，由于开关因子 $\beta$ 决定了激活过程中的非线性，在不同级别上为每个样本生成 $\beta$ 值，这些级别可以是像素级、通道级和层级。如下表结果表明，三个水平都能显著提高准确率。
在这里插入图片描述

如下表显示，在所有的网络结构中， $\mathrm{Meta-ACON}$ 的性能明显优于SENet。即使在极深的 $\mathrm{ResNet-152}$ 中， $\mathrm{Meta-ACON}$ 仍然提高了 $1.8\%$ 的精度，与 $\mathrm{SENet}$ 相比提高了 $1\%$ 。
在这里插入图片描述