Mish、β-Mish激活函数

最新推荐文章于 2023-04-08 15:49:51 发布

皮鼓坐凳子

最新推荐文章于 2023-04-08 15:49:51 发布

阅读量1k

点赞数

分类专栏：激活函数大全文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/weixin_38190702/article/details/125740677

版权

激活函数大全专栏收录该内容

32 篇文章 0 订阅

订阅专栏

Mish

论文：Mish: A Self Regularized Non-Monotonic Activation Function

年份：2020

通过对激活函数的理论研究，那些类似于Swish的共享特性，包括非单调性、保持小负权值的能力和平滑轮廓。提出多个函数分别为 $arctan(x)\cdot softplus(x)$ 、 $tanh(x)\cdot softplus(x)$ 、 $x\cdot log(1+arctan(e^x))$ 、 $x\cdot log(1+tanh(e^x))$ 通过消融试验，我们确定Mish优化与其它函数，Mish的数学公式为：
$x\cdot tanh(softplus(x)) = x\cdot tanh(log(1+e^x))$

Mish的导数公式为：
$f^\prime(x) = \frac{e^x (4(x+1)+4e^{2x}+e^{3x}+e^x(4x+6)}{(2e^x+e^{2x}+2)^2}$

Mish的曲线与导数曲线如下图所示。

在这里插入图片描述

从图中可以发现Mish是一个光滑、连续、自正则化、非单调的激活函数。
Mish是有下界、无下界的激活函数，其范围为 $[\approx-0.31, \infty]$ 。
Mish使用了自门控特性，由于保留了少量的负面信息，Mish通过设计消除了死亡ReLU，这有助于更好的表达和信息流。
由于上面没有边界，Mish避免了饱和，不会导致梯度消失；有下界会导致强正则化的特性。
Mish又是连续可微的，这避免了奇异点，在执行基于梯度的优化时避免了不必要的副作用。
拥有平滑的轮廓对梯度的流动起到了很好的作用，有助于更容易的优化和更好的泛化。

$\beta$ -Mish激活函数

论文：Beta and Alpha Regularizers of Mish Activation Functions for Machine Learning Applications in Deep Neural Networks

年份：2022

$\beta$ -Mish是Mish的广义扩展，使用 $\beta$ 和 $\alpha$ 两个因子来归一化Mish激活函数边界以下的区域。 $\beta$ -Mish使用了一个通用的数学表达式
$x\cdot tanh(ln(1+e^{\frac{\alpha x}{\sqrt{\beta+x^2}}}))$

$\beta$ -Mish的导数为：
$f^\prime(x) = \frac{\frac{\alpha \beta x \sqrt{\beta+x^2 e^{\frac{\alpha x}{\sqrt{\beta +x^2}}}}}{cosh^2(softplusx())}+(x^2+\beta)^2(1+e^{\frac{\alpha x}{\sqrt{\beta +x^2}}}) tanh(softplus(x))}{(x^2 + \beta)^2(1+e^{\frac{\alpha x}{\sqrt{\beta +x^2}}})}$