Activate or Not Learning Customized Activation(CVPR 2021)理解

参考论文

ReLU是目前较常用的激活函数,Swish激活函数在它的基础上进一步提高了ImageNet上的精度。参考论文提出了ACON激活函数,它一方面解释了Swish函数的内在机理,证明Swish是ReLU的平滑近似版本,另一方面又推广出ACON激活函数,可进一步提高精度,且ACON的上下边界是可学习的。在网络高度deep的时候证明比其他激活函数更能提高精度。

具体改进可见下图,对于每层是不是要激活是不一样的,而ReLU是每层都一样。
在这里插入图片描述
ACON原理
考虑max函数
在这里插入图片描述
转换成softmax的话为
在这里插入图片描述
而ReLU是max(x, 0),是两个变量的max函数,转换成更一般的形式,即两个变量都是x的线性函数,
在这里插入图片描述
把它转换为softmax函数形式
在这里插入图片描述
其中第二行到第4行的推导,可以在第2行的第2项分子分母都乘
在这里插入图片描述
这个公式可以在设不同的
在这里插入图片描述
时作各种推广

ACON-A:a(x)=x, b(x)=0![在这里插入图片描述](https://img-blog.csdnimg.cn/20210424230545312.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xldmVsX2NvZGU=,size_16,color_FFFFFF,t_70 =280x23)

其中ACON-A正是Swish激活函数

接着是一阶导的上下界证明
在这里插入图片描述
为求一阶导最大最小值,求二阶导为0处的值,得到
在这里插入图片描述
可看到一阶导的上下边界也是可学习的

上面的 β \beta β是超参,是设置的,而如果 β \beta β是可学习的情况,就是
Meta-ACON
β \beta β = G(x), 至于G(x)如何设置,作者给出了设计的空间。
如果每个layer设一个 β \beta β的话,可设为
在这里插入图片描述
如果每个channel设一个,那么
β \beta β =
在这里插入图片描述
其中W1的shape为C x C/r, W2的shape为 C/r x C,
而注意后面的求和项,求和后shape为C x 1
所以 β \beta β的shape为C x 1,也就是每个channel学习一个值

具体实现可见源代码

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蓝羽飞鸟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值