为什么使用ReLU而不是sigmoid

最新推荐文章于 2024-08-30 17:27:44 发布

PKU_Jade

最新推荐文章于 2024-08-30 17:27:44 发布

阅读量2.3k

点赞数

本文链接：https://blog.csdn.net/PKU_Jade/article/details/78213797

版权

ReLU因计算简单和缓解梯度消失问题而优于sigmoid。sigmoid的指数计算复杂且其导数最大值为1/4，导致在多层神经网络中易出现梯度弥散。ReLU在正区间的导数恒为1，减少了学习速率不一致的问题，提高了训练效率。

摘要由CSDN通过智能技术生成

                    
                    sigmoid计算复杂，需要计算指数
梯度弥散： 
 对于每层只有一个神经元的网络，考虑每一层的偏导数，我们发现 
  ∂C∂b1=σ′(

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PKU_Jade

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sigmoid relu激活函数, 为什么使用relu?

Jiashilin

04-05

369

为什么使用relu? 1.使用sigmoid计算量会特别大 2.sigmoid在反向传播算法时候,随着深度加深有可能会出现梯度爆炸

神经网络为什么要使用激活函数，为什么relu要比sigmoid要好

piaodexin的博客

08-14

6955

第一个问题：为什么引入非线性激励函数？如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与只有一个隐藏层效果相当，这种情况就是多层感知机（MLP）了。正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络就有意义了（不再是输入的线性组合，可以逼近任意函数）。最

参与评论您还未登录，请先登录后发表或查看评论

ReLU为什么比Sigmoid效果好

最新发布

buggggg_的博客

08-30

855

激活函数是神经网络中的一个重要组件，它决定了每个神经元的输出。当一个神经元接收到输入信号后，会进行加权求和，然后通过激活函数进行处理，最终得到这个神经元的输出。（类似圈出来的隐层部分，由输入层进行加权求和之后并不是马上进行下一轮运算，而是再经过一个激活函数决定给下一轮的值）激活函数的作用主要有以下几点：1、激活函数就像是在给神经网络“增加脑筋”，让它不仅能处理简单的事情，还能理解复杂的问题。2、归一化：有些激活函数会把输出值限制在一定范围内，比如把所有结果都压缩在0到1之间。

为什么使用relu

marmalade要天天向上

07-04

262

https://blog.csdn.net/u014114990/article/details/50144653 https://blog.csdn.net/cherrylvlei/article/details/53149381 https://blog.csdn.net/qq_27396861/article/details/90547095 为什么引入非线性激励函数？如果不用激励函数（其...

为什么用-Relu

刘宏宇的博客

08-03

5260

ReLU起源于神经科学的研究：2001年，Dayan、Abott从生物学角度模拟出了脑神经元接受信号更精确的激活模型，如下图： Attwell等神经科学家通过研究大脑的能量消耗过程，推测神经元的工作方式具有稀疏性和分布性；因此Relu也有了单侧抑制性，让神经网络也具备稀疏性。（具备稀疏性计算都不要那么多了，很舒服很轻松，同时稀疏性也能够突显重要特征。）相比于其它激活函数来说，Re...

#为什么要使用relu(ReLu)激活函数#

kg0077

03-02

1331

引入ReLu的原因第一，采用sigmoid等函数，算激活函数时（指数运算），计算量大，反向传播求误差梯度时，求导涉及除法，计算量相对大，而采用Relu激活函数，整个过程的计算量节省很多。第二，对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失），从而无法完成深层网络的训练。第三，ReLu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。 .

使用Relu的原因及好处

qq_19329785的博客

12-01

1万+

为什么要使用激活函数。使用非线性激活函数的好处。Relu的好处和优点。

relu激活函数对比sigmoid的优势

weixin_49565223的博客

02-27

4499

1. 为什么要激活函数 原理上来说，神经网络模型的训练过程其实就是拟合一个数据分布（x）可以映射到输出（y）的数学函数，即 y= f(x)。拟合效果的好坏取决于数据质量及模型的结构，像逻辑回归、感知机等线性模型的拟合能力是有限的1，连xor函数都拟合不了，那神经网络模型结构中提升拟合能力的关键是什么呢？ ** 变化的非线性** 激活函数相较于跃迁函数，其平滑性不同,激活函数是一条平滑的曲线。输出随着输入发生连续性变化。其平滑性的特性对神经网络的学习有重要的意义由于Sigmoid函数的输出不是零中心的（

【深度学习】为什么使用ReLU作为激活函数，ReLU比sigmoid优秀在哪里

王爷的CSDN

07-04

9277

推动深度学习变得兴起的主要因素包括：数据规模、计算量及算法的创新。当前大多数算法的创新都是为了提升运算能力，使运算速度更快，尤其对于复杂的神经网络、大规模的数据而言运算效率确实非常重要，而用ReLU替换sigmoid作为激活函数，便是其中算法创新的一个典型案例。为什么使用ReLU作为激活函数，ReLU比sigmoid优秀在哪里从图中可以看到，在sigmoid函数箭头所指区域，梯度会...

为什么在CNNs中激活函数选用ReLU，而不用sigmoid或tanh函数？

benniaofei18的博客

04-09

7997

https://blog.csdn.net/shijing_0214/article/details/53143393第一个问题：为什么引入非线性激励函数？如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了。...

为什么通常ReLU比Sigmoid效果好

m0_50833438的博客

09-20

1128

1、ReLU的计算速度比Sigmoid更快，因为ReLU只涉及简单的阈值比较和取最大值的操作。这在训练大型深度网络时可以节省大量的计算资源。2、Sigmoid函数的导数在接近其两个极端（0和1）时非常接近于0，这会导致反向传播中的梯度消失问题。这意味着在深层网络中，通过多个Sigmoid层传播梯度时，梯度会逐渐变得非常小，导致网络训练变得非常缓慢，甚至无法收敛。ReLU通过在正数部分保持导数为1，从而更好地解决了梯度消失问题。3、在ReLU中，负数部分被截断为0，所以在每个神经元上只有一部分激活。

07_ReLU函数在0处不可导，为什么还能用

JM的博客

05-30

1489

训练神经网络的时候，一旦学习率没有设置好，第一次更新权重的时候，输入是负值，那么这个含有ReLU的神经节点就会死亡，再也不会被激活。因为：ReLU的导数在x>0的时候是1，在x<=0的时候是0。如果x<=0，那么ReLU的输出是0，那么反向传播中梯度也是0，权重就不会被更新，导致神经元不再学习。其实我们可以人为提供一个伪梯度，例如给它定义在0处的导数为0，其实tensorflow在实现ReLU的时候也是定义ReLU在0处的导数为0的。来近似，这个函数是连续的，它在0点的导数是0.5。

relu\max pooling\argmax是如何进行反向传导的

weixin_39326879的博客

04-15

5284

众所周知，在神经网络中，进行反向传导需要计算梯度，这也就要求函数本身可导，但是relu、max pooling、argmax都是不可导的函数，既然不可导（或者不连续可导），也就无法求解梯度（或者无法在某一点上求解梯度），那这些函数是如何实现反向更新参数的呢？ Relu Relu在x=0处是不可导的，其采用的方法是次梯度. 对于ReLU函数, 当x>0的时候,其导数为1; 当x<0时,其导数为0. 则ReLU函数在x=0的次梯度是 [0,1] ,这里是次梯度有多个,可以取0,1之间的任意值.

神经网络反向求导不可导情况处理

RichardsZ_的博客

08-04

1633

1.激活函数不可导深度学习算法通常需要进行反向求导，来更新模型的参数，这就要求激活函数满足处处可导的性质，例如传统的sigmoid函数等。但是，为了解决梯度消失等问题提出的relu系列函数却不满足处处可导性质。针对这种类型的激活函数，可以使用次梯度来解决。次梯度方法(subgradient method)是传统的梯度下降方法的拓展，用来处理不可导的凸函数。它的优势是比传统方法处理问题范围大，劣势是算法收敛速度慢。但是，由于它对不可导函数有很好的处理方法，所以学习它还是很有必要的。对于rel

三、Pytorch多层感知机（3月1日学习笔记）

Hongrui_Chang的博客

03-01

338

李沐《动手学深度学习》笔记（基于pytorch）三月一日3.8-多层感知机

relu不可微为什么可用于深度学习

ningyanggege的博客

09-07

7332

首先确定relu数学上来讲不可微的，提供伪梯度使其可分，faux gradient是伪梯度，使得在0值不可分；这里讲到了本质，反馈神经网络正常工作需要的条件就是每一个点提供一个方向，即导数；0值不可微，本质上来说是因为这个地方可画多条切线，但我们需要的只是一条；由于这出现的0值的概率极低，任意选择一个子梯度就OK了，在0处的次微分集合是【0，1】；即选择其中一个就OK了；一般默认是0；...

2-7 神经网络基础-非线性、relu

记录与分享AI资料与学习过程

02-07

895

机器学习基础-神经网络-非线性、relu 1. 为什么必须在神经网络中引入非线性？ 2. ReLU在零点不可导，那么在反向传播中怎么处理？ 3. ReLU的优缺点 4. 激活函数有什么作用，常用的的激活函数有哪些？ 5. Softmax的原理是什么？有什么作用？

Relu函数相比SIGmoid函数的优点

07-28

ReLU函数相比Sigmoid函数有以下几个优点： 1. 避免了梯度消失问题：在深层神经网络中，梯度消失是指在反向传播过程中，梯度逐渐变小，导致较浅层的神经元几乎不会得到有效的更新。Sigmoid函数在输入值较大或较小时梯度接近于0，从而容易导致梯度消失。而ReLU函数在正区间梯度始终为1，避免了梯度消失问题。 2. 计算速度更快：ReLU函数的计算非常简单，只需判断输入是否大于0并输出对应的值即可。相比之下，Sigmoid函数涉及指数运算，计算量更大。 3. 更好的收敛性：ReLU函数在正区间上是线性的，这意味着不会出现梯度饱和现象，使得模型更容易收敛。 4. 更好的表示能力：ReLU函数能够更好地拟合非线性数据，因为它可以保留输入中的正部分，并且没有上限。相比之下，Sigmoid函数的输出范围是(0, 1)，在多层网络中可能会导致信息丢失。尽管ReLU函数有这些优点，但也存在一些问题，如神经元死亡问题和输出不稳定问题。因此，在实际应用中，可能需要结合其他激活函数或使用其改进版本，如Leaky ReLU或ELU。