RNN变体

最新推荐文章于 2024-08-23 14:22:36 发布

m0_73692880

最新推荐文章于 2024-08-23 14:22:36 发布

阅读量55

点赞数

文章标签： rnn 深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73692880/article/details/129902629

版权

本文介绍了LSTM和GRU两种循环神经网络模型，它们通过门控机制解决了传统RNN的梯度消失问题，适应于处理长序列依赖。LSTM有输入门、遗忘门和输出门，以及细胞状态，而GRU则简化为更新门和重置门。这两种模型各有优劣，LSTM表达能力强但计算复杂，GRU则更简洁但可能表达能力稍弱。

摘要由CSDN通过智能技术生成

LSTM和GRU学习笔记

1. LSTM（长短时记忆网络）

1.1 LSTM的结构

LSTM在RNN的基础上引入了长短时记忆单元（Long Short-Term Memory），通过门控机制对信息进行筛选和保留，从而有效地解决梯度消失和长依赖问题。

具体来说，LSTM的结构由以下三个门控组成：

输入门（input gate）：控制哪些信息可以进入记忆单元
遗忘门（forget gate）：控制哪些信息需要从记忆单元中被清除
输出门（output gate）：控制哪些信息可以输出

此外，LSTM还引入了一个细胞状态（cell state），用于存储长期记忆信息。

1.2 LSTM的计算过程

LSTM的计算过程可以分为以下几步：

输入门控制输入信息的筛选与保留：

$i_t = \sigma(W_{xi}x_t + W_{hi}h_{t-1} + b_i)$

其中， $i_t$ 表示当前输入信息经过输入门后保留的比例， $\sigma$ 为Sigmoid函数。

遗忘门控制记忆单元中的信息清空：

$f_t = \sigma(W_{xf}x_t + W_{hf}h_{t-1} + b_f)$

其中， $f_t$ 表示当前信息需要清空的比例。

更新细胞状态：

$C_t = f_t \odot C_{t-1} + i_t \odot \tanh(W_{xc}x_t + W_{hc}h_{t-1} + b_c)$

常把 $i_t \odot \tanh(W_{xc}x_t + W_{hc}h_{t-1} + b_c)$ 记作 $\widetilde{C_t}$

其中， $\odot$ 表示逐元素相乘， $\tanh$ 为双曲正切函数。

输出门计算输出：

$o_t = \sigma(W_{xo}x_t + W_{ho}h_{t-1} + b_o)$

$h_t = o_t \odot \tanh(C_t)$

其中， $o_t$ 为输出门控制输出比例， $h_t$ 为当前时间步的隐藏状态， $W_{xo}$ 、 $W_{ho}$ 、 $b_o$ 为输出门参数。

1.3 LSTM的优缺点

优点：

可以较好地处理长序列依赖问题。即学习长期依赖问题。
学习能力较强，对于文本、音频等序列信号具有很好的表达能力。
对于数据中的噪声和冗余信息具有很好的鲁棒性。

缺点：

计算复杂度较高，训练时间较长。
参数较多，容易过拟合。

2. GRU（门控循环单元）

2.1 GRU的结构

GRU是在LSTM的基础上发展而来的，相比于LSTM，GRU的结构更加简单，只有两个门控机制。

更新门（update gate）：决定前一时刻的状态是否需要更新。
重置门（reset gate）：决定前一时刻的状态中需要清除的信息。

2.2 GRU的计算过程

GRU的计算过程可以分为以下几步：

更新门计算：

$z_t = \sigma(W_{xz}x_t + W_{hz}h_{t-1} + b_z)$

其中， $z_t$ 表示当前状态需要更新的比例。

重置门计算：

$r_t = \sigma(W_{xr}x_t + W_{hr}h_{t-1} + b_r)$

其中， $r_t$ 表示当前状态需要重置的比例。

候选隐层状态计算：

$\tilde{h_t} = \tanh(W_{x\tilde{h}}x_t + W_{h\tilde{h}}(r_t \odot h_{t-1}) + b_{\tilde{h}})$

其中， $\tilde{h_t}$ 为候选隐层状态。

更新当前状态：

$h_t = (1-z_t) \odot h_{t-1} + z_t \odot \tilde{h_t}$

2.3 GRU的优缺点

优点：

参数较少，计算复杂度低。
能够处理长序列依赖问题。
训练时间较短。

缺点：

表达能力较弱，可能无法处理复杂的序列数据。
对于数据中的噪声和冗余信息不够鲁棒。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RNN变体

个人学习笔记
复制链接

扫一扫

m0_73692880 CSDN认证博客专家 CSDN认证企业博客

码龄2年

3: 原创

169万+: 周排名

137万+: 总排名

425: 访问

: 等级

30: 积分

1: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。