从sigmoid到GELU——神经网络中的激活函数

最新推荐文章于 2024-08-09 20:19:15 发布

colourmind

最新推荐文章于 2024-08-09 20:19:15 发布

阅读量1.7k

点赞数 1

分类专栏：深度学习机器学习理论

本文链接：https://blog.csdn.net/HUSTHY/article/details/107267995

版权

深度学习机器学习理论专栏收录该内容

16 篇文章 4 订阅

订阅专栏

3、RELU函数——Rectified Linear Unit——整流线性单元

作为深度学习神经网络中非常重要的一个部分，弄清楚激活函数，对我们夯实基础起很重要的作用，下面就一一来学习一下激活函数。

一、激活函数及其作用

什么是激活函数呢？其实激活函数并不是很难理解的一个概念。这里激活函数就可以看做一个函数一个映射，对于单个神经元来说，激活函数的功能就是起一个限制阀的作用——控制输入——不让它进入神经网络中。看一个简单的神经元结构：

输入x1,x2,...,xn和权重系数做一个乘积，然后输入到神经元节点中，经过函数f的映射后得到结果作为下一个神经元的输入。这里的函数f就是一个激活函数，通过f的规则，来控制x1,x2,...,xn对后续神经元的输入量的多少。

OK，现在理解了激活函数具体是个什么东西了。那就要问为什么要有激活函数呢？没有激活函数神经网络work不？那它的作用是什么呢？

从网络上我们很容易得到结论——激活函数增加了模型的非线性！

那什么是模型的非线性呢？这里其实应该是这么说才更加的清晰——激活函数增加了模型的能力，使得它能够处理更加复杂的任务——这个就是模型的非线性。

现在假设一个平面上的分类任务——图来自形象的解释神经网络激活函数的作用是什么？

这个任务使用不含激活函数的神经网络(简单的不含激活函数的多层感知器)来做的话，会是一个什么样的结果呢？

不含激活函数的神经网络——简单的不含激活函数的多层感知器——每个神经元不含那个f函数，那么这个神经网络的每一层都是很多个线性规划的组合，最后就相当于使用很多条直线来对上面这个平面进行分类，那么无论如何这个分类总是不能很好的区分开这些个点。

换言之也就是线性型的神经网络不能处理复杂任务，要想处理复杂任务就必须要增加神经网络的非线性——使用了激活函数的神经网络是可以拟合任意的曲线的。如下图——形象的解释神经网络激活函数的作用是什么？

这个时候的曲线就可以把这些点给区分开来，这里就增加了模型的能力。当然这样也有过拟合的风险。

简单总结一下，激活函数的作用就是增加模型的非线性——换言之就是增加模型的能力，让它能够处理更加复杂的任务。

当然作为激活函数，还有其他的一些必要性。神经网络一般都是深层网络，往往都会存在梯度爆炸和梯度消失的问题，表现出模型不能收敛，完成任务！这个时候激活函数也是可以作为解决这些问题的一个方法的，当然我认为也是很有效和很简单的方法。

二、激活函数的分类

在介绍激活函数的分类之前，很有必要了解一下神经网络梯度消失和梯度爆炸问题。神经网络采用BP算法，在设定好了权重和偏置初始参数，训练的过程中使用梯度下降法来更新权重参数。给定如下一个网络：

更新权重和偏置参数的时候有，根据链式求导法则

公式中的微分或者导数其实就是激活函数的导数，当 $\delta$ 和 $\omega$ 同时大于1的时候，深层的网络中，累积的乘会导致最终值非常大，从而导致梯度爆炸——权重剧烈变化——模型不能收敛；当 $\delta$ 和 $\omega$ 同时小于1的时候，累乘导致最后的结果趋近于0，这个时候就会出现梯度消失——权重变化很小或不会更新。

1、sigmoid

这是个比较老的函数，在机器学习中也是比较常用到的。直接看看它的公式和函数图像：

这里的Z就是输入，可以是单个的值也可以是其他变量的线性组合。函数图像：

可以看到它的定义域是无穷大，而值域是(0,1)。来看看该激活函数的导数，公式如下：

图像如下：

由上图可知，这里sigmoid函数的导数在输入X为极大值或者极限值的时候，导数几乎为0；从图上还可以看出倒数的值域是(0,0.25)的，x在(-2,2)的区间内，倒数值才大于0.10，如果x在这个区间之外，那么函数就不太敏感。这就会导致权重几乎不能更新，也就是产生梯度消失的问题，模型也就不能很好的训练了。

它作为激活函数的优点是什么呢？值域是(0,1)，同时又是单调单调函数，可以很好的把一个输入隐射到(0,1)之上。同时也是可导的，很适合作为一个激活函数。

另外一方面，这里的缺陷也很明显：

a、在输入很大的时候，它的倒数趋近于0，变化很小，这个就容易出现梯度消失问题，模型权重得不到更新。

b、它的输出不是0均值的，这个对于输出的分布的改变很有影响。

c、可以看着这个激活函数中含有指数的，计算速度上有一定的影响。网络模型训练的速度稍微慢一点。