NNDL 作业10：第六章课后题（LSTM | GRU）

最新推荐文章于 2023-12-20 22:08:02 发布

cdd04

最新推荐文章于 2023-12-20 22:08:02 发布

阅读量458

点赞数 1

文章标签： lstm gru 深度学习

本文链接：https://blog.csdn.net/m0_59158839/article/details/128093723

版权

本篇博客探讨了循环神经网络（RNN）在使用公式(6.50)进行状态更新时可能遭遇的梯度爆炸问题，并提出通过引入门控机制如LSTM和GRU来解决。LSTM和GRU的门控结构有助于避免梯度消失，确保在网络中长期依赖信息的传递。GRU因其简洁和高效在大规模模型中更受欢迎，而LSTM则因强大的信息处理能力成为首选。

摘要由CSDN通过智能技术生成

习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时，分析其可能存在梯度爆炸的原因并给出解决办法.

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做)

ref

习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时，分析其可能存在梯度爆炸的原因并给出解决办法.

可能存在梯度爆炸的原因是令 $z_{k}=Uh_{k-1}+Wx_{k}+b$ 为在第k时刻函数 $g\left ( \cdot \right )$ 的输入，在计算公式 $\delta _{t,k}=\frac{\alpha \zeta _{t}}{\alpha z_{k}}$ 中的误差项 $\delta t,k=\frac{\alpha \zeta _{t}}{\alpha z_{k}}$ 时，梯度可能会过大，从而导致梯度爆炸问题。

为了解决这个问题，可以通过引入门控机制来进一步改进模型，包括控制信息的累积速度，有选择地加入新的信息，并有选择地遗忘之前累积的信息。

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

反向传播

对于LSTM， $\frac{\alpha C_{t}}{\alpha C_{t-1}}$ 在任何时间步，该值可以大于1，或者在[0, 1]范围内。因此，如果我们延伸到无穷的时间步，最终并不会收敛到0或者无穷。如果开始收敛到0，那么可以总是设置的值（更高一些，使得 $\frac{\alpha C_{t}}{\alpha C_{t-1}}$ 的值接近1，从而防止了梯度消失。