Activate or Not Learning Customized Activation(CVPR 2021)理解

最新推荐文章于 2022-08-09 15:41:59 发布

蓝羽飞鸟

最新推荐文章于 2022-08-09 15:41:59 发布

阅读量837

点赞数

分类专栏： DeepLearning 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/level_code/article/details/116108289

版权

DeepLearning 专栏收录该内容

63 篇文章 7 订阅

订阅专栏

参考论文

ReLU是目前较常用的激活函数，Swish激活函数在它的基础上进一步提高了ImageNet上的精度。参考论文提出了ACON激活函数，它一方面解释了Swish函数的内在机理，证明Swish是ReLU的平滑近似版本，另一方面又推广出ACON激活函数，可进一步提高精度，且ACON的上下边界是可学习的。在网络高度deep的时候证明比其他激活函数更能提高精度。

具体改进可见下图，对于每层是不是要激活是不一样的，而ReLU是每层都一样。
在这里插入图片描述
ACON原理
考虑max函数

转换成softmax的话为

而ReLU是max(x, 0)，是两个变量的max函数，转换成更一般的形式，即两个变量都是x的线性函数，

把它转换为softmax函数形式

其中第二行到第4行的推导，可以在第2行的第2项分子分母都乘

这个公式可以在设不同的

时作各种推广

ACON-A:a(x)=x, b(x)=0![在这里插入图片描述](https://img-blog.csdnimg.cn/20210424230545312.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xldmVsX2NvZGU=,size_16,color_FFFFFF,t_70 =280x23)

其中ACON-A正是Swish激活函数

接着是一阶导的上下界证明
在这里插入图片描述
为求一阶导最大最小值，求二阶导为0处的值，得到

可看到一阶导的上下边界也是可学习的

上面的 $\beta$ 是超参，是设置的，而如果 $\beta$ 是可学习的情况，就是
Meta-ACON
$\beta$ = G(x), 至于G(x)如何设置，作者给出了设计的空间。
如果每个layer设一个 $\beta$ 的话，可设为

如果每个channel设一个，那么
$\beta$ =

其中W1的shape为C x C/r, W2的shape为 C/r x C,
而注意后面的求和项，求和后shape为C x 1
所以 $\beta$ 的shape为C x 1，也就是每个channel学习一个值

具体实现可见源代码

蓝羽飞鸟

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
Activate or Not Learning Customized Activation(CVPR 2021)理解

参考论文ReLU是目前较常用的激活函数，Swish激活函数在它的基础上进一步提高了ImageNet上的精度。参考论文提出了ACON激活函数，它一方面解释了Swish函数的内在机理，证明Swish是ReLU的平滑近似版本，另一方面又推广出ACON激活函数，可进一步提高精度，且ACON的上下边界是可学习的。在网络高度deep的时候证明比其他激活函数更能提高精度。具体改进可见下图，对于每层是不是要激活是不一样的，而ReLU是每层都一样。ACON原理考虑max函数转换成softmax的话为而ReL
复制链接

扫一扫