深度学习——常见简单激活函数（activation function）

最新推荐文章于 2023-04-15 10:08:21 发布

LSG.haha

最新推荐文章于 2023-04-15 10:08:21 发布

阅读量470

点赞数

分类专栏： python NLP 深度学习文章标签：深度学习激活函数多层神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mr_LiShao/article/details/99594232

版权

python 同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

在多层神经网络中，每一层的输入与输出呈线性关系，多层的话，该多层神经网络的输入和输出之间关系仅是内部多层隐藏层和输出层多个线性关系式的联合，即输入和输出之间仍是线性关系，这样的话，多层神经网络就跟单层神经网络相同了，做起来就没有什么意义。即全连接层只对数据做仿射变换，而多个仿射变换的叠加依旧是一个仿射变换。

在上述情况下，解决该问题的方法之一就是引入非线性变换，如：对隐层变量使用按元素运算的非线性函数进行变换，然后再作为下一个全连接层的输入。这个非线性函数被称为激活函数（activation function）。

常见的激活函数有以下几个：

ReLU函数：该函数只保留正数元素，负数均置为0。该函数现常用于神经网络中。
1. 表达式：ReLU(x) = max(x, 0)
2. 函数图像：
3. 优点：
  1. 解决了gradient vanishing问题 (在正区间)
  2. 计算速度非常快，只需要判断输入是否大于0
  3. 收敛速度远快于sigmoid和tanh
4. 缺点：
  1. 输出不是zero-centered
  2. Dead ReLU Problem，某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。
    1. 参数初始化不合适
    2. 学习率太高导致在训练过程中参数更新太大，使网络进入这种状态
sigmoid函数：它可以将元素的值变换到0到1之间。
1. 函数表达式：
2. 函数图像：
3. 特点：它能够把输入的连续实值变换为0和1之间的输出，如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1。
4. 缺点：sigmoid函数曾经被使用的很多，不过近年来，用它的人越来越少了。
  1. 在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失
  2. sigmoid 的 output 不是0均值（即zero-centered）,这样会倒是收敛缓慢
  3. 解析式中含有指数运算，计算机求解时相对来讲比较耗时
tanh函数：又称双曲正切函数，它可以将值变换到-1到1之间。
1. 函数表达式：
2. 函数图像：
3. 它解决了Sigmoid函数的不是zero-centered输出问题，然而，梯度消失（gradient vanishing）的问题和幂运算的问题仍然存在。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。