常用激活函数解析

最新推荐文章于 2022-11-18 18:09:09 发布

平丘月初

最新推荐文章于 2022-11-18 18:09:09 发布

阅读量360

点赞数

分类专栏： torch 文章标签： python 深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011994454/article/details/121422531

版权

torch 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

sigmoid 和 ReLU

$\frac{1}{1+e^{-x}}$

$s i g m o i d$ 激活函数的问题是随着输入趋近 $\pm\infty$ 时，梯度会迅速变为0，梯度回传时，浅层的参数无法得到有效更新。

$R e L U (x) = m a x (0, x)$
$R e L U$ 在x>0时，梯度恒为1，不会存在梯度消失问题。在x<0时，梯度为0，不再反传，可类似 $d r o p o u t$ 引入更多非线性。加入模型后，训练稳定性和效果均优于 $s i g m o i d$ 。

ReLU 和 ReLU6

$R e L U 6 (x) = m i n (6, m a x (0, x))$
限制了 $R e L U$ 的最大输出不超过6，可以增强端上小模型，低精度推理时的鲁棒性。

sigmoid 和 hard sigmoid

$hard\_sigmoid(x) = (ReLU(x) + 3)/6$
可近似 $s i g m o i d$ 函数，计算量更低。

swish 和 hard swish

$x\cdot sigmoid(\beta x)$
$hard\_swish(x) = x \cdot (ReLU6(x) + 3)/6$

$s w i s h$ 中的 $s i g m o i d$ 操作，在端上计算量过重，于是用 $hard\_sigmoid$ 来近似。 $h\_swish$ 激活操作在 $m o b i l e n e t v 3$ 中被使用。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
常用激活函数解析

sigmoid 和 ReLUsigmoid(x)=11+e−xsigmoid(x) = \frac{1}{1+e^{-x}}sigmoid(x)=1+e−x1sigmoidsigmoidsigmoid激活函数的问题是随着输入趋近±∞\pm\infty±∞时，梯度会迅速变为0，梯度回传时，浅层的参数无法得到有效更新。ReLU(x)=max(0,x)ReLU(x) = max(0, x)ReLU(x)=max(0,x)ReLUReLUReLU在x>0时，梯度恒为1，不会存在梯度消失问题。在x&l
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。