Hard Swish激活函数

皮鼓坐凳子

已于 2022-08-14 00:17:54 修改

阅读量8.2k

点赞数 10

分类专栏：激活函数大全文章标签：深度学习 cnn 神经网络

于 2022-06-28 17:09:43 首次发布

本文链接：https://blog.csdn.net/weixin_38190702/article/details/125501977

版权

激活函数大全专栏收录该内容

32 篇文章

订阅专栏

第一个版本Hard Swish激活函数

文章链接：Searching for MobileNetV3
年份：2019

简介

Swish激活函数代替ReLU，显著提高了神经网络的准确性，具体定义为： $\cdot \sigma(x)$ ，虽然这种非线性提高了精度，然而sigmoid函数是由指数构成的，在移动设备上的计算成本要高得多。Sigmoid激活函数可以用分段线性函数HardSigmoid拟合
$\begin{aligned}Hardsigmoid(x) = \begin{cases} 0, &x\le -3 \\ 1 ,&x\ge 3\\\frac{x}{6}+\frac{1}{2}, & otherwise\\\end{cases}\end{aligned}$ 由此，用Hardsigmoid替代sigmoid可以大大减少运算成本，由此诞生了HardSwish，具体的公式为：
$\cdot Hard Sigmoid(x)= x\cdot \frac{ReLU6(x+3)}{6}= x\cdot \begin{cases} 1, &x\ge3\\ \frac{x}{6}+\frac{1}{2}, &-3<x<3\\ 0, &x\le -3\end{cases}$
该函数的对x的导数为：
$Swish^\prime(x) = \begin{cases} 1, &x\ge3\\ \frac{x}{3}+\frac{1}{2}, &-3<x<3\\ 0, &x\le -3\end{cases}$
本文的参数均为常量，并与最初的平滑版本相匹配。经过试验发现该函数与Swish的性能几乎没有明显的差别，但从部署角度来看有多种优势，分段函数可以减少内存访问的数量，从而大幅减低延迟成本。具体的函数图像如下图：
在这里插入图片描述
不仅仅只有一种HardSwish版本另一个版本如下：

第二个版本的HardSwish激活函数

简介

文章链接：Semantic Segmentation of Satellite Images using a Modified CNN with
Hard-Swish Activation Function

年份：2019

简介：

激活函数的选择在神经网络的训练和测试动力学中起着重要的作用。介绍了一种与Swish激活函数密切相关的新型激活函数Hard-Swish。它被定义为
$2x\cdot HardSigmoid(\beta x) = 2x\cdot max(0, min(1, (0.2\beta x+0.5)))$
可以写成分段函数的形式：
$2x\cdot\begin{cases}1, &x\ge\frac{5}{2\beta}\\ 0.2\beta x+0.5, &-\frac{5}{2\beta}<x<\frac{5}{2\beta}\\ 0, &x\le-\frac{5}{2\beta}\end{cases}$
其中 $\beta$ 是可训练参数或自定义参数。当 $\beta\to \infty$ 时，HardSwish变成分量为0或1的阶跃函数。具体的函数图像如下图在这里插入图片描述
HardSwish对x的导数的图像为：

HardSwish平滑地在ReLU和线性函数之间进行了非线性差值。 $\beta$ 越大，负区域的最小值越小，最小值为 $-\frac{5}{8\beta}$ 。HardSwish的属性与Swish相似，因为它们都是上下无界的，它是非单调的。该函数与Swish相比，它的计算速度更快。