[模型基础] RNN及变体LSTM、GRU

让我安静会

已于 2022-04-02 11:04:58 修改

阅读量946

点赞数 1

分类专栏：论文阅读文章标签： pytorch 深度学习 python

于 2022-04-02 10:58:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31225201/article/details/123912996

版权

论文阅读专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1. RNN

RNN被称为循环，因为它们对序列中的每个元素执行相同的任务，并且输出元素依赖于以前的元素或状态，RNN的输入和输出是可变的，并且在不停循环同样操作。循环公式有助于处理序列数据，因此RNN常用于处理序列数据。
在这里插入图片描述

在这里插入图片描述上述W权重共享，L是每一层/时间步的损失L，将所有损失相加得到整体损失。由于共享权重。每一步的误差梯度也取决于前一步的损失。上述例子中，为了计算第4步的梯度，需要将前3步的损失和第4步的损失相加。这称为Time-BPPT的反向传播。

计算梯度是计算误差的过程，将loss值-梯度*学习率，并一步步更新来优化loss，从而优化模型，学习率是每一步更新的大小/步伐长短。
RNN中，共享权重，需要在每个时间步上对W的梯度进行求和。

RNN问题

由于需要在每个RNN单元进行反向传播，如果时间步很大，获得的值也会非常大。

如果最大奇异值大于1，则梯度将爆炸，称为爆炸梯度。
如果最大奇异值小于1，则梯度将消失，称为消失梯度。
权重在所有层中都是共享的，会导致梯度消失、爆炸。

解决方案

梯度爆炸：使用梯度裁剪，比如先设定一个阈值，梯度大于阈值时，裁剪掉。
梯度消失：长短期记忆（LSTM）、门控循环单元（GRU）
例如，在一句话中，需要预测下一个单词时，RNN往往需要根据前面的单词进行判断，这时候需要返回前面的多个时间步，来了解前面的单词。随着距离的增大，信息会衰减、RNN效果下降。

2. LSTM

LSTM可以更快的学习长期依赖关系（时间间隔多），通过高效的基于梯度的算法。
在这里插入图片描述

3. GRU

GRU使用两个门，重置门、更新门，GRU没有内部记忆。

重置门，决定如何将新输入与前一个时间步的记忆相结合。
更新门，决定应该保留多少以前的记忆。更新门是LSTM中理解的输入门和遗忘门的组合。

GRU是求解消失梯度问题的LSTM的一个简单变种。

参考：

循环神经网络（RNN）简易教程：https://baijiahao.baidu.com/s?id=1672452413766545276&wfr=spider&for=pc
门控循环单元网络GRU详解：https://zhuanlan.zhihu.com/p/383574455

让我安静会

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。