门控循环单元（GRU）学习笔记

最新推荐文章于 2024-05-10 10:13:23 发布

echo_zcc

最新推荐文章于 2024-05-10 10:13:23 发布

阅读量1.8k

点赞数 1

文章标签： gru 学习 lstm

本文链接：https://blog.csdn.net/azc190928/article/details/123054022

版权

GRU原理

GRU是LSTM网络的一种变体，它较LSTM网络的结构更加简单，而且效果也很好。GRU 有两个门，一个是重置门（reset gate），另一个是更新门（update gate）。重置门决定了如何将新的输入信息与前面的记忆相结合，更新门定义了前面记忆保存到当前时间步的量。如果我们将重置门设置为 1，更新门设置为 0，那么我们将再次获得标准 RNN 模型。
我们先来看下两个门的输出： $R_t=\sigma(X_tW_{xr}+H_{t-1}W_{hr}+b_r)$ 、
$Z_t=\sigma(X_tW_{xz}+H_{t-1}W_{hz}+b_z)$

候选隐状态： $\tilde{H}_t=tanh(X_tW_{xh}+(R_t\bigodot{H}_{t-1})W_{hh}+b_h)$
更新门帮助模型决定到底要将多少过去的信息传递到未来。极端情况下，当 $R_t$ 里面全是0代表这一时刻起前面的信息都不要。另一个极端情况 $R_t$ 里面全是1时就相当于把前面的信息拿来用，等价于RNN是如何算隐层状态的。

隐状态： $H_t=Z_t\bigodot{H_{t-1}+(1-Z_t)\bigodot{\tilde{H}_t}}$
$(1-Z_t)\bigodot{\tilde{H}_t}$ 表示对包含当前节点信息的 ${\tilde{H}_t}$ 进行选择性”记忆“， $Z_t\bigodot{H_{t-1}}$ 表示对原本隐藏状态的 $H_{t-1}$ 选择性“遗忘”，忘记维度中一些不重要的信息。
假设 $Z_t=1$ ， $H_t=H_{t-1}$ ，等于不更新过去状态，忽略掉这个元素。

echo_zcc

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
门控循环单元（GRU）学习笔记

GRU原理GRU是LSTM网络的一种变体，它较LSTM网络的结构更加简单，而且效果也很好。GRU 有两个门，一个是重置门（reset gate），另一个是更新门（update gate）。重置门决定了如何将新的输入信息与前面的记忆相结合，更新门定义了前面记忆保存到当前时间步的量。如果我们将重置门设置为 1，更新门设置为 0，那么我们将再次获得标准 RNN 模型。我们先来看下两个门的输出：Rt=σ(XtWxr+Ht−1Whr+br)R_t=\sigma(X_tW_{xr}+H_{t-1}W_{hr}+b_
复制链接

扫一扫