NNDL 作业10：第六章课后题（LSTM | GRU）

最新推荐文章于 2022-11-29 00:59:45 发布

.星.

最新推荐文章于 2022-11-29 00:59:45 发布

阅读量324

点赞数 1

文章标签： lstm gru 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_55293698/article/details/128058687

版权

目录

习题6-3 当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果

附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做)

习题6-3 当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法

答：令 $z_k=Uh_{k-1}+Wx_k+b$ 为在第k时刻函数 $g(\cdot )$ 的输入，在计算公式 $\delta _{t,k}=\frac{\partial\pounds _{t} }{\partial z_k}$ 时，梯度可能会过大，从而导致梯度爆炸问题。可以通过引入门控机制来控制信息的累积速度，包括有选择性地加入新的信息，并有选择地遗忘之前累积的信息，以此解决梯度爆炸的问题。

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果

LSTM的递归求导公式中包含加法，使得导数值可以在1上下跳动，且门的值可以通过学习来调整，如果长期依赖对结果有重要影响，网络会把遗忘门值设置得更大，从而缓解梯度消失问题

附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做)

GRU 参数更少，效率更高，且容易收敛，但是在数据集很大的情况下，LSTM表达性能还是比GRU好。所以在数据集较大的时候用LSTM，在一般数据集采用效率更高的GRU

总结

本次作业推导了LSTM网络中参数的梯度，并且深度探索了LSTM与GRU，对这两个网络有了更深的理解

参考

NNDL 作业10：第六章课后题（LSTM | GRU）

LSTM和GRU网络的介绍和区别

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NNDL 作业10：第六章课后题（LSTM | GRU）

NNDL 作业10：第六章课后题（LSTM | GRU）
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。