自然语言菜鸟学习笔记（八）：激活函数

最新推荐文章于 2021-03-15 20:41:09 发布

_我走路带风

最新推荐文章于 2021-03-15 20:41:09 发布

阅读量472

点赞数 3

分类专栏：自然语言自然语言处理（NLP）菜鸟学习笔记文章标签：激励函数激活函数深度学习神经网络

本文链接：https://blog.csdn.net/qq_36652619/article/details/96009008

版权

自然语言同时被 2 个专栏收录

61 篇文章 4 订阅

订阅专栏

自然语言处理（NLP）菜鸟学习笔记

11 篇文章 3 订阅

订阅专栏

前言

学自然语言的时候，也不知道咋回事，就是头冷。

为什么要激活函数？

比如说对于一个神经网络，我们不用激活函数是一个什么样纸？那么我们可以假想激活函数是 f(x) = x，因为没有用激活函数嘛，也就是 y = x一个线性的存在，神经网络的结构是层次的，高级的层次的输入是来自于低级的层次的输出的，那么，如果我们不使用激活函数，神经网络上的每一层节点的输入都是上一层的节点的输出的线性函数（可以想象成 f(x) = x）。那么，无论我们使用多少层、多深层次的神经网络，输出都是输入的线性组合，隐藏层失去效果，很多层次的神经网络相当于单层的神经网络，其实很好理解，这种情况就是最原始的感知机（Perception）。

若我们使用非线性的函数当做激活函数，神经网络不在是线性组合，给神经元引入了非线性因素， 可以逼近任意非线性函数，这样我们深层次的神经网络的表达能力更强。

几种激活函数

采用不同的激活函数可能会使神经网络梯度下降的速度不一样，最终神经网络的拟合能力可能也不一样，所以怎么选激活函数得看实际的模型中是如何操作的。

Sigmoid

左侧为Sigmoid函数的形状，右侧为Sigmoid导数的形状

公式如下：

$\sigma (x) = \frac{1}{1 + e^{-x}}$

特点：

可以看到左侧他的函数的形状，在[ -5, +5 ]的区间内，值的波动会比较大，而在这个区间之外，值将逐渐趋于平缓。所以在输入非常大或者输入很小的时候是没有梯度的，从右侧的倒数也可以看出，当输入超过区间的时候，梯度基本为0。两侧的导数逐渐趋于零，这种特性成为软饱和性。饱和的意思就是梯度不下降了。
输出均值非0，大于0，在图中可以看出是0.5，输出均值不为0，有什么不好的地方？这会导致后面一层的神经元将得到上一层输出的非0均值的信号作为输入。产生的一个结果就是：如果数据进入神经元的时候是正的，那么计算出的梯度也会始终都是正的。因为原本输入的计算经过sigmoid它就会大于0。当然了，如果你是按batch去训练，那么那个batch可能得到不同的信号，所以这个问题还是可以缓解一下的。
e的-x次方会导致模型计算复杂，计算资源消耗大
梯度消失，梯度下降是对每个方向求偏导，Sigmoid的导数的取值范围在0到0.25之间，假设让很多层的神经网络，他梯度下降的过程中如果吧激活函数设置为sigmoid就会导致很多个 [ 0, 0.25 ]之间的数相乘，最终梯度消失。

Tanh

特点：

输入超过一定的区间范围，也会导致没有梯度，可以看到右侧的导数形状，取值很大或很小，梯度就没有了。
输出均值是0，这点是好一些的，输出均值在上面sigmoid有介绍到。所以收敛速度要比sigmoid快，会减少迭代次数。
计算复杂，计算e的x和-x次方

ReLU

公式：

$f(x) = \left\{\begin{matrix} x, x \geq 0\\ 0, x < 0 \end{matrix}\right.$

特点：

计算简单。
不饱和性，观察右侧的导数，当输入大于0的时候，值都能等于1，一直是有梯度的，所以收敛速度会比较快。
输出均值大于0
当输入小于零，则梯度直接为0，就是ReLU硬饱和。就是假设有一个比较大的梯度进行下降导致 x 变为负值，那么他的梯度将持续为0，一直得不到更新，对数据不再有激活的能力，该神经单元相当于死掉了。