深度学习（六）激活函数

最新推荐文章于 2024-06-12 10:09:53 发布

米翁方

最新推荐文章于 2024-06-12 10:09:53 发布

阅读量372

点赞数

分类专栏：基础知识深度学习

本文链接：https://blog.csdn.net/u013247002/article/details/84857447

版权

深度学习同时被 2 个专栏收录

14 篇文章 3 订阅

订阅专栏

基础知识

10 篇文章 1 订阅

订阅专栏

写在前面：所有关于深度学习的基础知识均为鄙人的笔记分享，很多内容摘自大神们的博客或论文，因时间太长记不清了分别来自哪里。若有侵权，请联系鄙人邮箱min.wenfang@qq.com

一、sigmoid

把输入的连续实值“压缩”到0和1之间，Sigmoid激活函数给神经网络引进了概率的概念。它的导数是非零的，并且很容易计算（是其初始输出的函数）。然而，在分类任务中，sigmoid 正逐渐被 Tanh 函数取代作为标准的激活函数，因为后者为奇函数（关于原点对称）

二、tanh

把输入的连续实值“压缩”到-1和1之间。在分类任务中，双曲正切函数（Tanh）逐渐取代 Sigmoid 函数作为标准的激活函数，其具有很多神经网络所钟爱的特征。它是完全可微分的，反对称，对称中心在原点。为了解决学习缓慢和梯度消失问题，可以使用这个函数的更加平缓的变体（log-log、softsign、symmetrical sigmoid 等等）。

三、relu

数学表达式为 f(x)=max(0,x)，输入信号<0时，输出都是0；输入信号>0 的情况下，输出等于输入。优点是收敛速度快、计算量小；缺点是实际操作中，如果你的learning rate 很大，那么很有可能你网络中的40%的神经元都”dead”了。因此relu有很多变体，如leaky relu、Prelu、Rrelu等。

sigmoid和tanh的导数只有在0附近的时候有比较好的激活性，在正负饱和区的梯度都接近于0，所以这会造成梯度弥散，而relu函数在大于0的部分梯度为常数，所以不会产生梯度弥散现象。

3.1 leaky relu

3.2 Prelu

Prelu 即Parametric Relu。对于 Leaky ReLU 中的 a，通常都是通过先验知识人工赋值的。

然而可以观察到，损失函数对的导数我们是可以求得的，可不可以将它作为一个参数进行训练呢？

Kaiming He的论文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》指出，不仅可以训练，而且效果更好。原文说使用了Parametric ReLU后，最终效果比不用提高了1.03%。

3.3 Rrelu

Rrelu 即Randomized Relu。Randomized Leaky ReLU 是 leaky ReLU 的random 版本（即随机a）。在训练过程中，是从一个高斯分布中随机出来的，然后在测试过程中进行修正。

四、softplus