RNN变体之LSTM和GRU原理

最新推荐文章于 2024-06-14 01:24:18 发布

荼靡~

最新推荐文章于 2024-06-14 01:24:18 发布

阅读量297

点赞数

分类专栏： # 深度学习文章标签： gru 深度学习 LSTM RNN RNN变体算法

本文链接：https://blog.csdn.net/m0_46926492/article/details/128713225

版权

20 篇文章 0 订阅

订阅专栏

1.LSTM算法

在这里插入图片描述

参数	含义
$h_{t-1}$	t-1时刻网络输出
$h_{t}$	t时刻网络输出, $h_{t}$ 取决于当前时刻 t 的记忆状 $C_{t}$ 和t时刻的输入 $x_{t}$ 、t- 1 时刻的输出 $h_{t-1}$
$C_{t-1}$	上 t-1 时刻网络中的记忆单元
$C_{t}$	下一时刻的记忆状态
$\widetilde{C_{t}}$	当前时刻的记忆状态
$f_{t}$	t时刻网络的输入和 t - 1网络的输出 ,得到 t-1 时刻下的衰减系数
$i_{t}$	t时刻网络的输入和 t - 1网络的输出 ,得到 t 时刻下的衰减系数
$o_{t}$	输出门衰减系数
$\sigma$	sigmoid激活函数
$\otimes$	数据相乘
$\oplus$	数据拼接相加

遗忘门
- 衰减系数f(t)值作用于上一时刻细胞状态上，代表遗忘过去多少信息，
- 衰减系数由x(t),h(t-1)计算得到，所以衰减系数公式代表着当前时刻的输入x(t)和上一时刻的h(t-1)来决定遗忘多少上一时刻的细胞状态的信息
输入门
- 当前时刻的数据信息。
- 代表着输入信息需要舍弃多少，得到当前的细胞状态
细胞状态更新
- 将遗忘门与输入门数据进行式更新细胞状态
输出门
- 计算输出衰减系数，更新后的细胞状态进行tanh激活，最终得到h(t),得到隐含状态h(t)

相关公式
$\begin{aligned} f_t&= \sigma(W_f[h_{t-1},x_t]+b_f)\\ i_t&= \sigma(W_i[h_{t-1},x_t]+b_i)\\ \widetilde{C_{t}}&= tanh(W_c[h_{t-1},x_t]+b_C)\\ C_t&=f_t*C_{t-1}+i_t*\widetilde{C_{t}}\\ o_t&= \sigma(W_o[h_{t-1},x_t]+b_o)\\ h_t&=o_{t}*tanh(C_t) \end{aligned}$
参数描述
- $C_{t-1}$ 作为上 t-1 时刻网络中的记忆单元，传入t时刻的网络之后，第一步操作是决定它的遗忘程度。
  - 衰减系数：将t时刻前面的记忆状态乘上 0-1的系数进行衰减，接着加上t时刻学到的记忆作为更新之后的记忆传出网络，作为t+l时刻网络的记忆单元
  - t-1时刻网络记忆的衰减系数是通过t时刻网络的输入和 t-1 网络的输出来确定的，
  - t 时刻网络记忆也是根据t时刻网络的输入和 t-1 时刻网络的输出得到的,即 $f_t与i_t$ 的公式一样，但参数不一样

在这里插入图片描述

参数	含义
$h_{t-1}$	t-1时刻网络输出
$h_{t}$	t时刻网络输出, $h_{t}$ 取决于当前时刻 t 的记忆状 $C_{t}$ 和t时刻的输入 $x_{t}$ 、t- 1 时刻的输出 $h_{t-1}$
$x_{t}$	t时刻输入
$\widetilde{h}_t$	当前时刻的记忆状态
$r_{t}$	t时刻网络的输入和 t - 1网络的输出 ,得到 t-1 时刻下的衰减系数
$z_{t}$	t时刻网络的输入和 t - 1网络的输出 ,得到 t 时刻下的衰减系数
$\sigma$	sigmoid激活函数
$\otimes$	数据相乘
$\oplus$	数据拼接相加

相关公式
- 输入门与遗忘门
  $\begin{aligned} z_t&= \sigma(W_z[h_{t-1},x_t])\\ r_t&= \sigma(W_r[h_{t-1},x_t])\\ \widetilde{h}_t&= tanh(W*[r_{t} * h_{t-1},x_t]) \end{aligned}$
- 输出门
  $\begin{aligned} h_t&=(1-z_t)*h_{t-1}+z_t*\widetilde{h}_t \end{aligned}$
由输出门公式发现，最终结果与 $z_t$ 有较大关系
- 当 $z_t$ 接近于0，说明模型更关注前面信息，不关注当前的信息
- 当 $z_t$ 接近于0.5，说明模型关注当前信息，也关注前面的信息
- 当 $z_t$ 接近于1，说明模型更关注当前信息，不关注前面的信息

关注