SERLU激活函数

最新推荐文章于 2024-03-13 16:23:11 发布

皮鼓坐凳子

最新推荐文章于 2024-03-13 16:23:11 发布

阅读量1k

点赞数 1

分类专栏：激活函数大全文章标签：计算机视觉 python 人工智能

本文链接：https://blog.csdn.net/weixin_38190702/article/details/125459415

版权

激活函数大全专栏收录该内容

32 篇文章 0 订阅

订阅专栏

SERLU激活函数

文章链接：Effectiveness of Scaled Exponentially Regularized Linear Units(SERLUs)

年份：2018

1.介绍

SELU是适当缩放指数线性单元，结合中心极限理论进行归一化。SELU是一个单调递增函数，对于较大的负输入，它有一个恒定的负输出。根据SELU提出SERLU，该函数是非单调函数，同时仍然保持自归一化的性质。而且该函数通过将一个线性函数正则化为一个缩放的指数函数，在负区域引入一个凸函数，称为缩放的指数正则化线性单元。凸函数对较大的负输入具有近似为零的相应，同时通过适当的缩放负区域的凸函数，能够将SERLU的输出在统计上推向0均值。

SERLU的具体函数公式为：
$\lambda \begin{cases} x, & x\ge 0\\ \alpha x e^x, &x<0 \end{cases},\lambda>0,\alpha>0$
SERLU的导数为：
$\lambda \begin{cases} 1, & x\ge 0\\ \alpha e^x\cdot (x+1), &x<0 \end{cases}$

$\lambda$ 和 $\alpha$ 为超参数，SERLU的函数图像如下图所示：
当固定 $\lambda$ ，变化 $\alpha$ 时的图像如下图：
在这里插入图片描述
当固定 $\alpha$ ,变化 $\lambda$ 的函数图像如下图：

通过以上两个图可以看出， $\lambda$ 不仅对正区域曲线的斜率起作用，而且与 $\alpha$ 一起控制着负区域曲线的最小值点。通过下图可以看出，当 $x = - 1$ 时，梯度为0，取得最小值，最小值为： $-\lambda \alpha e^{-1}$ 。
当固定 $\lambda$ ，变化 $\alpha$ 时的导数图像如下图：
在这里插入图片描述
当固定 $\alpha$ ,变化 $\lambda$ 的导数图像如下图：

2.分析

2.1. Swish与SERLU的区别

尽管 $x\cdot sigmoid(\beta x)$ 也有负输入的凸点，但其函数形式不如 $S E R L U (x)$ 灵活，SERLU的两个参数 $\lambda$ 与 $\alpha$ 可以自由调整输出的均值和方差，正是这种自由可以自由缩放 $S E R L U (x)$ ，使其具有自归一化属性。

2.2. $\lambda$ 与 $\alpha$ 的确定

要使SERLU表现出作为SELU的自我正则化的属性，首先要确定 $\alpha$ 和 $\lambda$ ，以便每层输出的平均值和方差跨层是一致的。通过设置不动点的均值 $\mu = 0$ ，方差 $\nu=1$ ，而且假设归一化的加权向量 $\omega=0$ 和 $\tau=1$ ，由此就可以获得
$\alpha \simeq 2.90427 \ and \ \lambda\simeq 1.07862$
参数 $\alpha$ 调节平均单位激活为零，而 $\lambda$ 将单位激活的方差归一化。当 $\alpha$ 与 $\lambda$ 确定时，函数曲线如下图：
在这里插入图片描述