DNN常见激活函数与其求导公式及来源

最新推荐文章于 2024-08-09 15:15:00 发布

时光机ﾟ

最新推荐文章于 2024-08-09 15:15:00 发布

阅读量7.9k

点赞数 3

分类专栏：深度学习文章标签： dnn 激活函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19784349/article/details/78982796

版权

深度学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Sigmoid 函数

f 1 (x) = 1 1 + e - x

$f_1(x)=\frac1{1+e^{-x}}$

f1(x) $f_1(x)$ 的导函数为：

d d x f 1 (x) = f 1 (x) (1 - f 1 (x))

$\frac{d}{\mathrm{d}x}f_1(x) = f_1(x)(1-f_1(x))$

tanh函数

s i n h (x) = e x - e - x 2

$sinh(x)=\frac{e^x-e^{-x}}2$

c o s h (x) = e x + e - x 2

$cosh(x)=\frac{e^x+e^{-x}}2$

t a n h (x) = s i n h ( x ) c o s h ( x ) = e x - e - x e x + e - x

$tanh(x)=\frac{sinh(x)}{cosh(x)}=\frac{e^x-e^{-x}}{e^x+e^{-x}}$
通过上下同乘

e−x $e^{-x}$ 可得

f2(x)=tanh(x)=2f1(2x)−1 $f_2(x)=tanh(x)=2f_1(2x)-1$ 【转化为Sigmoid函数的形式】
因此，tanh的导函数为：

d d x f 2 (x) = 2 f 1 (2 x) * 2 (1 - f 1 (2 x)) = 1 - f 22 (x)

$\frac{d}{\mathrm{d}x}f_2(x)=2f_1(2x)*2(1-f_1(2x))=1-f_2^2(x)$
函数模型如下：

tanh函数

相关论文：(该论文证明了tanh激活函数比Sigmoid好，因为Sigmoid的平均值不为0)
Eigenvalues of covariance matrices: Application to neural-network learning.

ReLu 函数

f 3 (x) = m a x (0, x)

$f_3 (x)=max⁡(0, x)$
即当x>0时，函数表现为 y=x；当 x<0 时，函数表现为 y=0
表现为分段函数的形式：

f 3 (x) = {x, 0, x>0 x \leq 0

$f_3 (x)=\begin{cases} x, & \text{x>0} \\ 0, & {x \le 0} \end{cases}$
则 ReLu函数的导函数为：

d d x f 3 (x) = {1, 0, x>0 x \leq 0

$\frac{d}{\mathrm{d}x}f_3(x)=\begin{cases} 1, & \text{x>0} \\ 0, & {x \le 0} \end{cases}$

提出背景：
2001年，神经科学家Dayan、Abott从生物学角度，模拟出了脑神经元接受信号更精确的激活模型，模型如下：

这里写图片描述

这个模型对比Sigmoid系(Sigmoid和tanh)主要变化有三点：①单侧抑制 ②相对宽阔的兴奋边界 ③稀疏激活性（重点，可以看到红框里前端状态完全没有激活）

该函数模型和Softplus函数一起被整理后，由论文发表。模型如下：

这里写图片描述

相关论文为：
Deep Sparse Rectifier Neural Networks

Leaky ReLu 函数

f 4 (x) = {x, α x, x > 0 x \leq 0

$f_4 (x)=\begin{cases} x, & x>0 \\ \alpha x, & x \le 0 \end{cases}$
其中，α是一个接近0的常数
则 Leaky ReLu函数的导函数为：

d d x f 4 (x) = {1, α, x > 0 x \leq 0

$\frac{d}{\mathrm{d}x}f_4(x)=\begin{cases} 1, & {x>0} \\ \alpha, & {x \le 0} \end{cases}$
函数模型如下：
Leaky ReLu 函数

Leaky ReLu 函数

提出论文：
Rectifier nonlinearities improve neural network acoustic models

ELU 函数

f 5 (x) = {x, α (e x - 1), x > 0 x \leq 0

$f_5 (x)=\begin{cases} x, & x>0 \\ \alpha (e^x-1), & x \le 0 \end{cases}$
则 ELU函数的导函数为：

d d x f 5 (x) = {1, α e x, x > 0 x \leq 0 = {1, f 5 (x) + α, x > 0 x \leq 0

$\frac{d}{\mathrm{d}x}f_5(x)=\begin{cases} 1, & {x>0} \\ \alpha e^x, & {x \le 0} \end{cases} =\begin{cases} 1, & {x>0} \\ f_5(x) + \alpha, & {x \le 0} \end{cases}$

ELU函数模型如下：

ELU函数模型

该函数模型有如下特性：
右侧线性部分使得ELU能够缓解梯度消失，而左侧软饱能够让ELU对输入变化或噪声更鲁棒。ELU的输出均值接近于零，所以收敛速度更快。

提出论文：
Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)

Maxout函数

f 5 (x) = m a x ((w i) T x + b i)

$f_5(x)=max⁡((w_i )^T x+b_i)$
该函数有如下特性：
maxout的拟合能力是非常强的，它可以拟合任意的的凸函数（当然包括ReLu和 Leaky ReLu）。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合。
Maxout能够缓解梯度消失，同时又规避了ReLU神经元死亡的缺点，但增加了参数和计算量。

提出论文：
Maxout Networks

关注

3
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。