深度学习常见概念解释(一)—— 梯度消失和爆炸


因为最近在研究深度学习相关的内容,经常会看到一些常见的概念和定义,但是一直没能彻底理解,在该系列笔记里整理一下:

梯度消失

定义

梯度消失问题(Vanishing Gradient Problem)是神经网络,尤其是深层神经网络在训练过程中常见的一个问题。它指的是在神经网络的训练过程中,当误差梯度(gradient)被反向传播回网络的输入层时,梯度的值变得非常小,甚至接近于零,导致网络权重的更新非常缓慢或者几乎不更新,这使得网络很难继续学习或者完全无法收敛到一个好的解。

原因

梯度消失通常发生在使用传统的激活函数(如Sigmoid或Tanh)的深度网络中。这些激活函数的导数在输入值较大或较小时都非常接近于零。例如,Sigmoid函数的输出范围是(0,1),其导数最大值为0.25,而当输入值远离零点时,导数迅速趋近于零。在深层网络中,这些小的梯度值被连乘,导致梯度在到达输入层时已经几乎为零。Sigmoid函数,Tanh函数公式,图像,还有它们分别的导数图像如下图一,二,三所示。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值