NNDL 作业10:第六章课后题(LSTM | GRU)

目录

习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

 习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做) 

附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做) 

ref


习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.

可能存在梯度爆炸的原因是令z_{k}=Uh_{k-1}+Wx_{k}+b为在第k时刻函数g\left ( \cdot \right )的输入,在计算公式\delta _{t,k}=\frac{\alpha \zeta _{t}}{\alpha z_{k}}中的误差项\delta t,k=\frac{\alpha \zeta _{t}}{\alpha z_{k}}时,梯度可能会过大,从而导致梯度爆炸问题。

为了解决这个问题,可以通过引入门控机制来进一步改进模型,包括控制信息的累积速度,有选择地加入新的信息,并有选择地遗忘之前累积的信息。

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

 

反向传播

 

对于LSTM,\frac{\alpha C_{t}}{\alpha C_{t-1}}在任何时间步,该值可以大于1,或者在[0, 1]范围内。因此,如果我们延伸到无穷的时间步,最终并不会收敛到0或者无穷。如果开始收敛到0,那么可以总是设置的值(更高一些,使得\frac{\alpha C_{t}}{\alpha C_{t-1}}的值接近1,从而防止了梯度消失。

 习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做) 

 GRU具有调节信息流动的门单元,但没有一个单独的记忆单元,GRU将输入门和遗忘门整合成一个升级门,通过门来控制梯度。

附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做) 

GRU的优点是其模型的简单性 ,因此更适用于构建较大的网络。它只有两个门控,从计算角度看,它的效率更高,它的可扩展性有利于构筑较大的模型;但是LSTM更加的强大和灵活,因为它具有三个门控。LSTM是经过历史检验的方法。

因此,如果你要选取一个,我认为大多数人会把LSTM作为默认第一个去尝试的方法。

同时GRU,因为其简单而且效果可以(和LSTM)比拟,可以更容易的将其扩展到更大的问题。

ref

《神经网络的梯度推导与代码验证》之LSTM的前向传播和反向梯度推导

GRU(Gated Recurrent Unit) 更新过程推导及简单代码实现

LSTM和GRU 及反向传播公式推导

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值