LSTM和GRU区别与联系

最新推荐文章于 2023-12-22 21:34:52 发布

-倾城之恋-

最新推荐文章于 2023-12-22 21:34:52 发布

阅读量1.3k

点赞数

分类专栏：机器学习神经网络深度学习

本文链接：https://blog.csdn.net/P081513083/article/details/98282442

版权

机器学习同时被 3 个专栏收录

37 篇文章 0 订阅

订阅专栏

深度学习

14 篇文章 0 订阅

订阅专栏

神经网络

13 篇文章 0 订阅

订阅专栏

LSTM和GRU都是特殊的RNN架构，都是为了解决梯度消失问题而生。GRU可以认为是简化版本的LSTM。

二者的核心概念：

当前记忆 = 过去记忆 + 记忆增量。

1、LSTM网络

LSTM具有三个门结构，输入门，输出门和遗忘门。
记忆增量是当前输入和过去输出的加权和。
遗忘门控制过去记忆的量，输入门控制记忆增量的量。
输出门控制当前记忆对当前输出的影响。
遗忘门：
$f=\sigma(U_1x_t+W_1h_{t-1})$
输入门：
$i=\sigma(U_2x_t+W_2h_{t-1})$

当前记忆：
$c_{t}=f\odot c_{t-1}+i\odot tanh(U_3x_t+W_3h_{t-1})$
输出门：
$o=\sigma(U_3x_t+W_3h_{t-1})$
当前输出：
$h_t=o\odot tanh(c_{t})$

2、GRU网络

GRU具体两个门结构：重置门和更新门。
记忆增量(或者说候选状态)由当前输入信息和过去记忆（或者说过去状态）累加形成，而重置门控制着过去记忆在当前记忆增量中的重要性。
而更新门控制过去记忆与当前记忆增量的比例。
重置门：
$r_t=\sigma(U_1x_t+W_1h_{t-1})$
更新门：
$z_t=\sigma(U_2x_t+W_2h_{t-1})$
记忆增量：
$\tilde{h}=tanh(U_3x_t+W_3(h_{t-1}\odot r_t))$
当前记忆：
$h_t=(1-z_t)\odot h_{t-1}+z_t\odot\tilde{h}$

可以看出GRU和LSTM非常类似，实际上性能也类似。只是GRU参数比LSTM少，训练速度更快。

-倾城之恋-

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
LSTM和GRU区别与联系

LSTM和GRU都是特殊的RNN架构，都是为了解决梯度消失问题而生。GRU可以认为是简化版本的LSTM。GRU具体两个门结构：重置门和更新门。重置门用来控制新的信息如何与前面的记忆结合，更新门用来控制当前新的记忆与过去的记忆结合。重置门：r=σ(U1xt+W1ht−1)r=\sigma(U_1x_t+W_1h_{t-1})r=σ(U1xt+W1ht−1)更新门：z=σ(U2xt+...
复制链接

扫一扫