常见激活函数回顾总结

最新推荐文章于 2024-07-11 17:12:37 发布

学学没完

最新推荐文章于 2024-07-11 17:12:37 发布

阅读量346

点赞数

分类专栏：深度学习文章标签：人工智能深度学习机器学习神经网络网络

本文链接：https://blog.csdn.net/weixin_42907473/article/details/104866688

版权

深度学习专栏收录该内容

4 篇文章 3 订阅

订阅专栏

激活函数分类示意图

饱和激活函数的存在的问题：
1）在接近饱和区时，变化太缓慢，导数趋于0，容易出现梯度消失。
2）反向传播求解误差梯度时，梯度趋于0，收敛速度慢。

非饱和激活函数的优势：
1）没有饱和区，抑制了“梯度消失”问题。（梯度消失问题的原因是多方面的，不仅仅是激活函数的锅）
2）收敛速度快
3） ReLU会使一部分神经元输出为0，使网络更加稀疏，从而降低了网络参数之间的相互依赖关系，缓解了过拟合问题。

1. Sigmoid

Sigmoid函数也被称为Logistic函数，因为Sigmoid函数可以从Logistic回归（LR）中推理得到，也是LR模型指定的激活函数。
Sigmoid函数会将网络的输出值映射在（0，1）之间，方便分析。

优点：平滑、易于求导。
缺点：
1）激活函数计算量大（正反向传播时都要进行幂运算和除法）
2）梯度消失问题。Sigmoid导数值的范围是[0, 0.25]，由于神经网络反向传播时的“链式反应”，很容易就会出现梯度消失的情况。例如对于一个深度网络，第n层的误差相对第一层卷积的参数的梯度将会是一个比0.25^n还小的值，随着网络层数的加深，梯度就越小，直至梯度为0，即梯度消失。
3）原始数据分布可能改变；Sigmoid的输出不是0均值，这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入，随着网络的加深，会改变数据的原始分布。

2. tanh

tanh为双曲正切函数，其映射值范围为（-1，1）。
tanh公式:
在这里插入图片描述
上式也反映了tanh就是对sigmoid函数进行了平移和拉伸。

相比Sigmoid函数，tanh有以下几个特点：
1）输出范围为（-1，1），解决了Sigmoid函数不是0均值的问题。
2）幂运算仍然存在，计算量依旧很大。
3）导数范围在（0，1）之间，梯度消失问题得到了缓解。

3. RelU(Rectified Linear Unit)

公式：relu(x) = max(0, x)
在这里插入图片描述
当输入值x>0时：
此时ReLU的导数为1，其在链式反应中不会出现梯度消失。但这也使得梯度下降的强度完全取决于权值的乘积，可能会出现梯度爆炸问题。解决这类问题的方法有：
1）将权值范围控制在（0，1）之间；
2）做梯度剪裁，即控制梯度下降的强度，例如ReLU6=min(6,max(0, x))

当输入值x<0时：
深度学习是根据大批量的样本数据，从错综复杂的数据关系中，找到关键信息（关键特征）。换句话说，就是把密集矩阵稀疏化，保留关键信息，去除噪声，使模型更具鲁棒性。而ReLU在x<0时的输出置为0，就是一个稀疏化矩阵的过程，并且在训练过程中，这种稀疏性是动态调节的，网络会自动调整稀疏比例，保证矩阵有最优的有效特征。
但是x一旦有一次是小于0的，那么这个神经元就会永久性关闭（为0，特征屏蔽），可能会导致模型无法学习到有效特征，如果学习率过大，就可能会导致大部分的神经元处于’dead’状态，所以使用ReLU的网络，学习率不能设置太大。

ReLU作为激活函数的特点：
1）相比Sigmoid和tanh，ReLU没有幂运算、除法等复杂计算，提高了运算速度。
2）解决了由激活函数带来的梯度消失问题，收敛速度大大提高，但要注意梯度爆炸问题的防范。
3）矩阵的稀疏化更好，容易得到更好的模型，但是模型大量神经元‘dead’问题也要防止。