NNDL 作业10:第六章课后题(LSTM | GRU)

目录

习题6-3 当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法.

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

附加题6-1P 什么时候应该用GRU?什么时候用LSTM?(选做)


习题6-3 当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法.

若使用 z_k=Uh_{k-1}+Wx_k+b 作为 k 时刻 g(·) 的输入,那么在对其求导时,h_t 与 h_{t-1} 的权重系数就会超过1.

 为了解决这些问题,可以通过引入门控来进一步改进模型。

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

 

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

附加题6-1P 什么时候应该用GRU?什么时候用LSTM?(选做)

两者的区别:GRU 中缺少的 LSTM 单元的一个功能是内存内容的受控暴露。在 LSTM 单元中,网络中其他单元看到或使用的内存内容量由输出门控制。另一方面,GRU 在没有任何控制的情况下公开其全部内容。另一个区别在于输入的位置门,或相应的复位门。LSTM 单元计算新的内存内容,而无需单独控制从前一个时间步长流出的信息量。相反,LSTM 单元独立于遗忘门控制添加到存储单元的新内存内容的数量。另一方面,GRU 在计算新的候选激活时控制来自先前激活的信息流,但不独立控制添加的候选激活量(控制通过更新门绑定)

1. LSTM利用输出门(output gate)可以选择性的使用细胞状态(细胞状态),而GRU总是不加选择的使用细胞状态

2. LSTM利用更新门(update gate)可以独立控制加入多少新的“记忆”,与老“记忆”无关,而GRU对新“记忆”的加入会受老“记忆”的约束,老“记忆”留存越多新“记忆”加入越少。
单从模型的角度分析,参数更复杂的LSTM具有更好的flexibility同时过拟合risk也更高

GRU的优点是其模型的简单性 ,因此更适用于构建较大的网络。 它只有两个门控,从计算角度看,它的效率更高,它的可扩展性有利于构筑较大的模型; 但是LSTM更加的强大和灵活,因为它具有三个门控。 LSTM是经过历史检验的方法。

最后一个选做题看了别人推导过程也没看太懂......

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值