深度学习:什么是梯度爆炸/梯度消失?

本文探讨了神经网络在反向传播过程中遇到的梯度消失和爆炸问题,分析了其发生的原因,涉及权重矩阵更新、偏导数累积以及深度网络结构的影响。
摘要由CSDN通过智能技术生成

一、定义

  1. 梯度消失:神经网络在进行反向传播(BP)的时候会对参数W进行更新,梯度消失就是靠后面网络层能够正常的得到一个合理的偏导数,但是靠近输入层的网络层,计算的到的偏导数近乎零,W几乎无法得到更新。
  2. 梯度爆炸:是靠近输入层的网络层,计算得到的偏导数极大。
  3. 公式:w1 = w0 - lr * △w
       △w过大和过小就是梯度爆炸、消失

二、发生原因

周所周知,梯度计算时我们使用的是反向传播(BP),即输出层到输入层。如下图所示,每一层的权重矩阵更新量就是每一个括号里的偏导。而想计算输入层的偏导数,就需要前面所有层的偏导数的乘积。当层数较大时,越靠近输出层的权重矩阵的更新就越大或越小,这就是所谓的梯度爆炸/消失。
在这里插入图片描述

三、对二中图片的解释:为什么可以写成那样

y1 = w1 * x + b1
y2 = w2 * y + b2

yn = wn * yn-1 +bn
上述为神经网络每一层的线性公式,△w为每一层的偏导的累积,且自动求导时使用反向传播(BP)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值