自己动手实现深度学习框架-7 RNN层--GRU, LSTM

最新推荐文章于 2024-08-26 13:15:40 发布

自带buff

最新推荐文章于 2024-08-26 13:15:40 发布

阅读量873

点赞数

分类专栏： AI 深度学习框架文章标签： AI 深度学习 RNN LSTM GRU

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39818173/article/details/106620231

版权

本文介绍了如何在深度学习框架中实现RNN、GRU和LSTM层，详细讲解了各个门控单元的工作原理，并通过代码实现展示了正余弦叠加函数的拟合过程，验证了GRU和LSTM模型的有效性。

摘要由CSDN通过智能技术生成

代码仓库: https://github.com/brandonlyg/cute-dl

目标

这个阶段会给cute-dl添加循环层，使之能够支持RNN–循环神经网络. 具体目标包括:

添加激活函数sigmoid, tanh.
添加GRU(Gate Recurrent Unit)实现.
添加LSTM(Long Short-term Memory)实现.
使用基于GRU和LSTM的RNN模型拟合一个正余弦叠加函数.

RNN原理

原始的RNN

RNN模型用来捕捉序列数据的特征. 给定一个长度为T的输入系列 $X=(x_1, x_2, .., X_T)$ , RNN层输出一个长度为T的序列 $H=(h_1, h_2, ..., H_T)$ , 对于任意时间步t, 可以表示为:
$H_t = δ(X_tW_x + H_{t-1}W_h + b), \quad t = 2, 3, .., T$
函数δ是sigmoid函数:
$\frac{1}{1 + e^{-x}}$
$H_t$ 包含了前面第1到t-1步的所有信息。和CNN层类似, CNN层在空间上共享参数， RNN层在时间步上共享参数 $W_x, W_h, b$ .

RNN层中隐藏层的数量为T-2, 如果T较大(超过10), 反向传播是很容易出现梯度爆炸. GRU和LSTM就是为了解决这个问题而诞生, 这两种模型，可以让RNN能够支持长度超过1000的输入序列。

GRU

GRU使用了不同功能的门控单元, 分别捕捉序列上不同时间跨度的的依赖关系。每个门控单元都会都有独立的参数, 这些参数在时间步上共享。

GRU的门控单元有:

$R_t = δ(X_tW^r_x + H_{t-1}W^r_h + b^r)$ , 重置门用于捕捉短期依赖关系.

$U_t = δ(X_tW^u_x + H_{t-1}W^u_h + b^u)$

最低0.47元/天解锁文章

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。