swish,mish

swish

2.swish

在这里插入图片描述
其中σ(x)是sigmoid函数,swish是光滑而且单调的,swish的导数是:
在这里插入图片描述
swish的第一和第二导数如图2所示:
在这里插入图片描述
无界性避免了饱和,函数饱和区域的梯度很小,训练非常缓慢,因此网络必须小心的初始化才能保持在这些函数的线性状态。此外,有下届也可能是有利的,因为强大的正则化效应。与relu和softplus不同的是, 由于它的非单调性,它为小的负输入产生负输出,swish的非单调性增加了表现力并改善了梯度流,这一点很重要,因为许多预激活都属于这个范围,该属性还可以对不同的初始化和学习速率提供一定的鲁棒性。

swish的网络输出landscape比relu要平滑的多,输出landscape的平整度直接影响着损失的平整度,平滑的损失可能更容易优化,因为它更具可遍历性,降低了对初始化和学习速率的敏感性。
在这里插入图片描述
在非常深的网络中swish比relu精度更高,因为他没有压缩梯度。

mish

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Mish的导数定义为:
在这里插入图片描述
mish从swish的self-Gating属性中获得灵感,其中标量输入被提供给gate,self-gating有利于代替像relu这样的激活函数,而不需要改变网络参数。

Properties of Mish

由于其他很多的训练因素,很难解释为什么一种激活函数比另一种更好,但Mish无上界,有下界,平滑和非单调的特性都对结果有改善。

mish与swish对比:
从数据上来看mish的性能略优于swish,两篇论文的依据都差不多,mish中没有为什么mish优于swish的解释,单单是从大量的实验中得出mish优于swish的结论,两者的各项性质很像,mish这篇论文有大量的实验数据,从性能角度大体上看是:mish > swish > relu,其中mish只比swish的性能好一点点,而mish每个epoch的train的时间是158 seconds,而swish只有不到150 seconds,而relu只有不135 seconds左右。

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值