Mish激活函数

最新推荐文章于 2024-06-18 15:30:22 发布

行*云

最新推荐文章于 2024-06-18 15:30:22 发布

阅读量1.4w

点赞数 15

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_34795071/article/details/104004763

版权

深度学习专栏收录该内容

34 篇文章 7 订阅

订阅专栏

Diganta Misra的一篇题为“Mish: A Self Regularized Non-Monotonic Neural Activation Function”的新论文介绍了一个新的深度学习激活函数，该函数在最终准确度上比Swish(+.494%)和ReLU(+ 1.671%)都有提高

地址：https://github.com/digantamisra98/Mish

公式如下：

橙色曲线为：ln(1+e^(x))

蓝色曲线为：Mish函数

Mish检查了理想的激活函数应该是什么(平滑、处理负号等)的所有内容，并提出了一套泛化的初始测试。

Mish和其他的激活函数相比怎么样？

为什么Mish表现这么好？

以上无边界(即正值可以达到任何高度)避免了由于封顶而导致的饱和。理论上对负值的轻微允许允许更好的梯度流，而不是像ReLU中那样的硬零边界。

最后，可能也是最重要的，目前的想法是，平滑的激活函数允许更好的信息深入神经网络，从而得到更好的准确性和泛化。

尽管如此，我测试了许多激活函数，它们也满足了其中的许多想法，但大多数都无法执行。这里的主要区别可能是Mish函数在曲线上几乎所有点上的平滑度。

这种通过Mish激活曲线平滑性来推送信息的能力如下图所示，在本文的一个简单测试中，越来越多的层被添加到一个测试神经网络中，而没有一个统一的函数。随着层深的增加，ReLU精度迅速下降，其次是Swish。相比之下，Mish能更好地保持准确性，这可能是因为它能更好地传播信息：

import math
import numpy as np
from matplotlib import pyplot as plt
        
def mish(x):
    return x * math.tanh(math.log(1+math.exp(x)))

def ln_e(x):
    return math.log(1+math.exp(x))
    
x = np.linspace(-10,10,1000)
y=[]
z=[]
for i in x:
    y.append(mish(i))
    z.append(ln_e(i))
plt.plot(x,y)
plt.plot(x,z)
plt.grid()
plt.show()

总结

ReLU有一些已知的弱点，但是通常它执行起来很轻，并且在计算上很轻。Mish具有较强的理论渊源，在测试中，就训练稳定性和准确性而言，Mish的平均性能优于ReLU。

复杂度只稍微增加了一点(V100 GPU和Mish，相对于ReLU，每epoch增加大约1秒)，考虑到训练稳定性的提高和最终精度的提高，稍微增加一点时间似乎是值得的。

这里是参考其他博文来的数据，很有借鉴意义：

å¾ç

对于ResNext-50来说，最好的激活是ReLU，但是速度更快并且需要更少的内存。仅对于DenseNet-121，SENet-18，ShuffleNetv2，尤其是对于SqueezeNet（比ReLU +2.15，比Swish +0.96）， Mish明显优于Swish / ReLU。

可视化激活函数连接

行*云

关注

15
点赞
踩
45

收藏

觉得还不错? 一键收藏
3
评论
Mish激活函数

Diganta Misra的一篇题为“Mish: A Self Regularized Non-Monotonic Neural Activation Function”的新论文介绍了一个新的深度学习激活函数，该函数在最终准确度上比Swish(+.494%)和ReLU(+ 1.671%)都有提高地址：https://github.com/digantamisra98/Mish...
复制链接

扫一扫

专栏目录