习题6-3当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法。
公式(6.50)为 :
若使用zk = Uhk-1 + Wxk + b 作为k时刻g(·)的输入,那么在对其求导时,ht与ht-1的权重系数就会超过1.
为了解决这些问题,可以通过引入门控来进一步改进模型。
习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.
习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)
GRU有调节信息流动的门单元,但没有一个单独的记忆单元,GRU将输入门和遗忘门整合成一个门,通过门控制梯度。
附加题6-1P 什么时候应该用GRU?什么时候用LSTM?(选做)
- LSTM利用输出门(output gate)可以选择性的使用细胞状态(cell state),而GRU总是不加选择的使用细胞状态
- LSTM利用更新门(update gate)可以独立控制加入多少新的“记忆”,与老“记忆”无关,而GRU对新“记忆”的加入会受老“记忆”的约束,老“记忆”留存越多新“记忆”加入越少。
GRU的优点是其模型的简单性 ,因此更适用于构建较大的网络。 它只有两个门控,从计算角度看,它的效率更高,它的可扩展性有利于构筑较大的模型; 但是LSTM更加的强大和灵活,因为它具有三个门控。 LSTM是经过历史检验的方法
总结:这次作业,有一些推导过程不太清楚,参考其他资料后,还是有些不懂的地方,下来还要慢慢理解。