NNDL 作业10:第六章课后题(LSTM | GRU)

目录

习题6-3 当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果

附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做)

总结 


习题6-3 当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法

答: 令z_k=Uh_{k-1}+Wx_k+b为在第k时刻函数g(\cdot )的输入,在计算公式\delta _{t,k}=\frac{\partial\pounds _{t} }{\partial z_k}时,梯度可能会过大,从而导致梯度爆炸问题。可以通过引入门控机制来控制信息的累积速度,包括有选择性地加入新的信息,并有选择地遗忘之前累积的信息,以此解决梯度爆炸的问题。

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果

 

LSTM的递归求导公式中包含加法,使得导数值可以在1上下跳动,且门的值可以通过学习来调整,如果长期依赖对结果有重要影响,网络会把遗忘门值设置得更大,从而缓解梯度消失问题

附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做)

GRU 参数更少,效率更高,且容易收敛,但是在数据集很大的情况下,LSTM表达性能还是比GRU好。所以在数据集较大的时候用LSTM,在一般数据集采用效率更高的GRU

总结 

本次作业推导了LSTM网络中参数的梯度,并且深度探索了LSTM与GRU,对这两个网络有了更深的理解

参考

NNDL 作业10:第六章课后题(LSTM | GRU)

LSTM和GRU网络的介绍和区别

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值