【Deep Learning 三】神经网络中的非线性激活函数之间的优缺点：sigmoid、tanh、ReLu、Leaky ReLu...

最新推荐文章于 2024-01-05 13:57:06 发布

一颗橙子℃

最新推荐文章于 2024-01-05 13:57:06 发布

阅读量3.5k

点赞数

分类专栏：深度学习

深度学习专栏收录该内容

17 篇文章 1 订阅

订阅专栏

1 什么是激活函数？

激活函数，并不是去激活什么，而是指如何把“激活的神经元的特征”通过函数把特征保留并映射出来（保留特征，去除一些数据中是的冗余），这是神经网络能解决非线性问题关键。

目前知道的激活函数有如下几个：sigmoid,tanh，ReLu,softmax。

simoid函数也称S曲线：f(x)=11+e−x

tanh:f(x)=tanh(x)

ReLU：f(x)=max(x,0)

softmax:f(x)=log(1+exp(x))

2 神经网络中为什么要使用激活函数？

激活函数是用来加入非线性因素的，因为线性模型的表达力不够

这句话字面的意思很容易理解，但是在具体处理图像的时候是什么情况呢？我们知道在神经网络中，对于图像，我们主要采用了卷积的方式来处理，也就是对每个像素点赋予一个权值，这个操作显然就是线性的。但是对于我们样本来说，不一定是线性可分的，为了解决这个问题，我们可以进行线性变化，或者我们引入非线性因素，解决线性模型所不能解决的问题。

这里插一句，来比较一下上面的那些激活函数，因为神经网络的数学基础是处处可微的，所以选取的激活函数要能保证数据输入与输出也是可微的，运算特征是不断进行循环计算，所以在每代循环过程中，每个神经元的值也是在不断变化的。

这就导致了tanh特征相差明显时的效果会很好，在循环过程中会不断扩大特征效果显示出来，但有是，在特征相差比较复杂或是相差不是特别大时，需要更细微的分类判断的时候，sigmoid效果就好了。

还有一个东西要注意，sigmoid 和 tanh作为激活函数的话，一定要注意一定要对 input 进行归一话，否则激活后的值都会进入平坦区，使隐层的输出全部趋同，但是 ReLU 并不需要输入归一化来防止它们达到饱和。

构建稀疏矩阵，也就是稀疏性，这个特性可以去除数据中的冗余，最大可能保留数据的特征，也就是大多数为0的稀疏矩阵来表示。

其实这个特性主要是对于Relu，它就是取的max(0,x)，因为神经网络是不断反复计算，实际上变成了它在尝试不断试探如何用一个大多数为0的矩阵来尝试表达数据特征，结果因为稀疏特性的存在，反而这种方法变得运算得又快效果又好了。

所以我们可以看到目前大部分的卷积神经网络中，基本上都是采用了ReLU 函数。

摘自：http://blog.csdn.net/huahuazhu/article/details/74188288

常见的 4 种激活函数（σ、tanh、ReLU、Leaky ReLU）：

4 种激活函数的优缺点：
σ：优点：适合二元分类，因为预测值在[0,1]之间，比如在输出层使用；缺点：当z很大，梯度接近0，下降速度缓慢。
tanh： 比σ要好，因为预测值在[-1,1]之间，可以使均值为0，比如在隐藏层使用；缺点：当z很大，梯度接近0，下降速度缓慢。
ReLU（修正线性单元）： 优点：当z很大，梯度为1，下降速度很快，最常用的激活函数；缺点：z有一半梯度为0。
Leaky ReLU（带泄露的修正线性单元）： 优点：解决了ReLU的有一半梯度为0的问题；缺点：需要调参来找到一个好的缓慢下降的参数，不常用。

神经网络中如果不加入激活函数，其一定程度可以看成线性表达，最后的表达能力不好，如果加入一些非线性的激活函数，整个网络中就引入了非线性部分，增加了网络的表达能力。目前比较流行的激活函数主要分为以下7种：

这里写图片描述