深度理解RNN的梯度消失和LSTM为什么能解决梯度消失

本文深入探讨RNN的梯度消失现象,指出其主要表现为远距离梯度消失,而LSTM通过门控机制有效解决了这一问题,确保信息在长序列中的传递,避免梯度消失。
摘要由CSDN通过智能技术生成

一、RNN的梯度消失有什么不同之处

 

先说结论:RNN的梯度等于近距离梯度与远距离梯度的和,RNN的梯度消失是远距离梯度的消失,而近距离梯度不会消失,同时总的梯度不会消失,从而导致总的梯度由近距离梯度占主导。

提到梯度消失,你肯定会说是因为网络层次太深,导致导数连乘项太多,所以梯度很小。这种回答适用于深度神经网络,但不适用于RNN。

因为RNN的梯度是一个和!!而且RNN的是共享一套参数的!

但我们在理解RNN的时候,经常喜欢把RNN按时间序列展开,可能会误解RNN是多套参数的,但其实是共用一套参数。

假设时间序列为3,将RNN展开就如上图所示,每一个时刻的隐状态和输出分别如下式:

假设我们现在处理的任务只需要用t=3时刻的输出去训练模型:

lloss = \frac{1}{2}(Y3-O3)^{2}

对Wx,Ws,Wo求偏导:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值