神经网络与深度学习作业10:(LSTM | GRU)

这篇博客探讨了循环神经网络中梯度爆炸的问题,重点分析了LSTM和GRU如何通过门控机制避免梯度消失。作者推导了LSTM和GRU的参数梯度,指出LSTM的遗忘门、输入门和输出门有助于梯度的稳定传递。GRU则通过update gate实现类似效果。此外,文章还讨论了LSTM和GRU的选择场景,指出GRU在大数据量下训练速度更快。
摘要由CSDN通过智能技术生成

习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.

公式(6.50)为:h_{t}=h_{t-1}+g(x_{t},h_{t-1};\Theta )

在计算误差项时,可能会出现梯度过大的情况,解决办法为:使用长短期神经网络。

 习题6-4推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

 其中E EE为损失函数,由于LSTM中通过门控机制解决梯度问题,遗忘门,输入门和输出门是非0就是1的,并且三者之间都是相加关系,梯度能够很好的在LSTM传递,减轻了梯度消失发生的概率,门为0时,上一刻的信息对当前时刻无影响,没必要接受传递更新参数了。


习题6-5推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

 

 

 

分析:

把LSTM的input gate和forget gate整合成一个update gate,也是通过gate机制来控制梯度:

 可以通过控制 来控制梯度。

 

 附加题 6-1P 什么时候应该用GRU? 什么时候用LSTM?

 

概括的来说,LSTM和GRU都能通过各种Gate将重要特征保留,保证其在long-term 传播的时候也不会被丢失。

结果对比1 

可以看出,标准LSTM和GRU的差别并不大,但是都比tanh要明显好很多,所以在选择标准LSTM或者GRU的时候还要看具体的任务是什么。
使用LSTM的原因之一是解决RNN Deep Network的Gradient错误累积太多,以至于Gradient归零或者成为无穷大,所以无法继续进行优化的问题。GRU的构造更简单:比LSTM少一个gate,这样就少几个矩阵乘法。在训练数据很大的情况下GRU能节省很多时间。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值