NNDL 作业10:第六章课后题(LSTM | GRU)

该博客探讨了循环神经网络在使用公式(6.50)时可能遇到的梯度爆炸问题,并提出了通过引入门控机制如LSTM和GRU来解决。LSTM和GRU的梯度分析表明它们能有效缓解梯度消失,GRU因其简洁性和效率适用于大规模模型,而LSTM则因更强大的灵活性适合复杂任务。附加题讨论了在不同场景下选择GRU或LSTM的考量因素。
摘要由CSDN通过智能技术生成

习题6-3当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法。

公式(6.50)为 :
在这里插入图片描述
若使用zk = Uhk-1 + Wxk + b 作为k时刻g(·)的输入,那么在对其求导时,ht与ht-1的权重系数就会超过1.
在这里插入图片描述
为了解决这些问题,可以通过引入门控来进一步改进模型。

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

在这里插入图片描述

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

在这里插入图片描述

GRU有调节信息流动的门单元,但没有一个单独的记忆单元,GRU将输入门和遗忘门整合成一个门,通过门控制梯度。

附加题6-1P 什么时候应该用GRU?什么时候用LSTM?(选做)

  1. LSTM利用输出门(output gate)可以选择性的使用细胞状态(cell state),而GRU总是不加选择的使用细胞状态
  2. LSTM利用更新门(update gate)可以独立控制加入多少新的“记忆”,与老“记忆”无关,而GRU对新“记忆”的加入会受老“记忆”的约束,老“记忆”留存越多新“记忆”加入越少。
    GRU的优点是其模型的简单性 ,因此更适用于构建较大的网络。 它只有两个门控,从计算角度看,它的效率更高,它的可扩展性有利于构筑较大的模型; 但是LSTM更加的强大和灵活,因为它具有三个门控。 LSTM是经过历史检验的方法

总结:这次作业,有一些推导过程不太清楚,参考其他资料后,还是有些不懂的地方,下来还要慢慢理解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值