神经网络——激活函数

最新推荐文章于 2024-07-17 16:06:38 发布

有梦想的雨

最新推荐文章于 2024-07-17 16:06:38 发布

阅读量976

点赞数

分类专栏：计算智能机器学习文章标签：神经网络机器学习深度学习

本文链接：https://blog.csdn.net/qq_41536160/article/details/122195476

版权

机器学习同时被 2 个专栏收录

21 篇文章 15 订阅

订阅专栏

计算智能

11 篇文章 4 订阅

订阅专栏

激活函数

激活函数 $f_{AN}$ 接收节点输入信号和偏差，以 $x=net-\theta$ 表示，决定输出。一个好的激活函数需要满足以下条件：

（1）非线性，即导数不是常数，其目的在于保证多重网络不退化成单层线性网络；

（2）几乎处处可微：可微性保证了再梯度优化中梯度的可计算性；

（3）计算简单：激活函数在神经网络前向传播过程中的使用次数与神经元的个数成正比，因此保证其计算的简单性是很有必要的；

（4）非饱和性（saturation）：饱和指的是在某些区间梯度接近于零（即梯度消失），使得参数无法继续更新的问题；

（5）单调性（monotonic）：即导数符号不变，单调性使得激活函数的梯度方向不会经常改变，从而使得训练更容易；

（6）输出范围有限：有限的输出范围使得网络对于一些比较大的输入也会比较稳定。但这会导致梯度消失问题；

（7）接近恒等变换（identity）：即约等于x。这样的好处是使得输出的幅值不会随着深度的增加而发生显著的增加，从而使网络更为稳定，同时梯度也能够更容易地回传。但与非线性存在矛盾。

（8）参数少：大部分激活函数都是没有参数的；使用带参数的激活函数会略微增加网络的大小；

（9）归一化：主要思想是使样本分布自动归一化到零均值、单位方差的分布，从而稳定训练；

（10）zero-centered:

对多数激活函数（线性除外），应当满足： $f_{AN}(-\infty)=0或f_{AN}(-\infty)=-1$ ，且有 $f_{AN}(\infty)=1$ 。

常用激活函数有：

1.线性函数： $f_{AN}(x)=\lambda\cdot x$ ， $\lambda$ 为一常数；
在这里插入图片描述

2.阶跃函数： $\displaystyle f_{AN}(x)=\left\{ \begin{aligned} \gamma_1, & & {if\,\,x\ge0}\\ \gamma_2, & & {if\,\,x<0}\\ \end{aligned} \right.$ ，其中，常取 $\gamma_1=1,\gamma_2=0\;or\;-1$ ;
在这里插入图片描述

3.斜面函数： $\displaystyle f_{AN}(x)=\left\{ \begin{aligned} \gamma, & & {if\,\,x\ge\epsilon}\\ x, & & {if\,\,-\epsilon<x<\epsilon}\\ -\gamma, & & {if\,\,x\le-\epsilon}\\ \end{aligned} \right.$
在这里插入图片描述

4. $S i g m o i d$ 函数：

$\displaystyle f_{AN}(x)=\frac{1}{1+e^{-\lambda x}}$ ；其值域为 $[0, 1] ；$ 通常， $\lambda=1$ ；

导数：当 $\lambda=1$ 时， $\displaystyle f'_{AN}(x)=\frac{e^{-\lambda x}}{(1+e^{-\lambda x})^2}=f_{AN}(x)\cdot f_{AN}(-x)=f_{AN}(x)\cdot [1-f_{AN}(x)]$ ；其值域为 $[0, 1 / 4]$
在这里插入图片描述

5.双曲正切函数：

$\displaystyle f_{AN}(x)=\frac{e^{\lambda x}-e^{-\lambda x}}{e^{\lambda x}+e^{-\lambda x}}\approx\frac{2}{1+e^{-\lambda x}}-1$ ，其值域为 $[- 1, 1]$ ，通常， $\lambda=1$ ；

导数：当 $\lambda=1$ 时， $\displaystyle f_{AN}(x)=1-(\frac{e^{\lambda x}-e^{-\lambda x}}{e^{\lambda x}+e^{-\lambda x}})^2=1-f^2_{AN}$ ，其值域为 $[0, 1]$ ；
在这里插入图片描述

6.高斯函数： $\displaystyle f_{AN}(x)=e^{{x^2}/{\delta^2}}$ ，其中， $\theta$ 为高斯分布的均值， $\delta^2$ 为方差；
在这里插入图片描述

7.ReLU函数：

$\displaystyle f_{AN}(x)=max(0,x)=\left\{ \begin{aligned} x, & & {if\,\,x>0}\\ 0, & & {if\,\,x\le0}\\ \end{aligned} \right.$ ，

其导数为 $\displaystyle f'_{AN}(x)=\left\{ \begin{aligned} 1, & & {if\,\,x>0}\\ 0, & & {if\,\,x\le0}\\ \end{aligned} \right.$ ，
在这里插入图片描述

ReLU函数的优点在于梯度和计算量小，缺点在于均值不为0，无上界等，因此有变种，如：

LeakyReLU： $\displaystyle f_{AN}(x)=max(\alpha x,x),\alpha可取0.01$ ；

ELU： $\displaystyle f_{AN}(x)=max\{\alpha(e^x-1),x\}$ ;

Noisy ReLU： $\displaystyle f_{AN}(x)=max\{0，x+Y\}，Y\sim N(0,\sigma(x))$ ;

ReLU上界设置： $\displaystyle f_{AN}(x)=min(6,max(0,x))$

SELU： $\displaystyle f_{AN}(x)=\lambda\cdot max\{\alpha(e^x-1),x\}$

$. . . . . .$

8.Maxout函数

与常规激活函数不同的是,它是一个可学习的分段线性函数，任何一个凸函数，都可以由线性分段函数进行逼近近似，因此，Maxout的拟合能力非常强。

假设 $\omega$ 是 2 维的，则有 $\displaystyle f_{AN}=max\{\omega^T_1\mathbf x+b_1,\omega^T_2\mathbf x+b_2\}$ ；

但从 Maxout 激活函数中可以看出，每个神经元中有两组参数 $(\omega,b)$ ，使得参数量增加了一倍，导致网络大小的增加。

有梦想的雨

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
神经网络——激活函数

激活函数激活函数 fANf_{AN}fAN 接收节点输入信号和偏差，以 x=net−θx=net-\thetax=net−θ 表示，决定输出。一个好的激活函数需要满足以下条件：（1）非线性，即导数不是常数，其目的在于保证多重网络不退化成单层线性网络；（2）几乎处处可微：可微性保证了再梯度优化中梯度的可计算性；（3）计算简单：激活函数在神经网络前向传播过程中的使用次数与神经元的个数成正比，因此保证其计算的简单性是很有必要的；（4）非饱和性（saturation）：饱和指的是在某些区间梯度接近于零（
复制链接

扫一扫