梯度消失问题与如何选择激活函数

本文探讨了深度学习中梯度消失的现象,解释了其原因,特别是激活函数的选择对梯度消失的影响。梯度消失会导致前层神经元训练缓慢,甚至停滞不前。解决方案包括选择合适的激活函数,如ReLU及其变体,以及采用批规范化、残差结构等方法。文章还强调了在隐藏层避免使用sigmoid,推荐使用ReLU作为默认选择。
摘要由CSDN通过智能技术生成

本文结构:

  • 什么是梯度消失?
  • 梯度消失有什么影响?
  • 是什么原因?
  • 解决方案有哪些?
  • 如何选择激活函数?

1. 什么是梯度消失?

梯度消失,常常发生在用基于梯度的方法训练神经网络的过程中。

当我们在做反向传播,计算损失函数对权重的梯度时,随着越向后传播,梯度变得越来越小,这就意味着在网络的前面一些层的神经元,会比后面的训练的要慢很多,甚至不会变化。


2. 有什么影响?

网络的前面的一些层是很重要的,它们负责学习和识别简单的模式,也是整个网络的基础,如果他们的结果不准确的话,那么后面层结果也会不准确。

而且用基于梯度的方法训练出参数,主要是通过学习参数的很小的变化对网络的输出值的影响有多大。如果参数的改变,网络的输出值贡献很小,那么就会很难学习参数,花费时间会非常长。


3. 梯度消失的原因?

在训练神经网络时,为了让损失函数越来越小,其中一种优化的方法是梯度下降。梯度下降法简单的来说就是在权重的负梯度方向更新权重,如下面这个公式所示,一直到梯度收敛为零。(当然在实际过程中,会通过设定一个超参数叫做最大跌代数来控制,如果迭代次数太小,结果就会不准确,如果迭代次数太大,那么训练过程会非常长。)

这里就需要计算参数的梯度,方法是用反向传播。

为了推导一下梯度消失的原因,我们来看一个最简单的神经网络的反向传播过程

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值