LSTM原理的理解

最新推荐文章于 2024-07-12 16:16:27 发布

SYBY

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量387

点赞数

分类专栏：强化学习学习笔记文章标签： python 深度学习

本文链接：https://blog.csdn.net/SYBYy6/article/details/118152095

版权

学习笔记同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

强化学习

2 篇文章 0 订阅

订阅专栏

文章目录

一、LSTM是什么
二、实现的主要流程
总结
参考

一、LSTM是什么

长短时记忆(LSTM)体系结构的设计是为了使信息在能够在需要之前的很长一段时间内都很容易记住。
这个名字指的是一个网络的激活对应于短期记忆，而权重对应于长期记忆。如果这些激活可以长时间保存信息，那么它们就是长短时记忆。

二、实现的主要流程

1.sigmoid函数的使用

有sigmoid函数的地方就是一个门，sigmoid函数的范围在0~1，sigmoid只开0的话，以前的信息就不能得到，若开1的话，以前的信息就能很好的继承。
下图一共三个门，遗忘门、输入门和输出门。
在这里插入图片描述
$C_{t-1}是t-1时刻的状态值$
$C_t是t时刻的状态值$
$C^{'} 是新的输入$
相乘符号类似于信息过滤，相加符号类似信息融合

$C_t是由C'与过滤后的C_{t-1}的融合得到$

2.LSTM的门（gate）

Forget gate(遗忘门)

在这里插入图片描述
Forget gate的开度计算： $f_t=\sigma(W_f [h_{t-1},x_t]+b_f )$
根据上式得到 $t$ 时刻forget开度的量 $f_t$ 。
红色线是由 $C_{t-1}$ 与 $f_t$ 相乘得到得过滤后得信息，即过滤后的历史状态。

Input gate(输入门)

在这里插入图片描述
这一步决定在这个状态块中存储什么样的新状态。
Input gate的开度计算： $i_t=\sigma(W_i[h_{t-1},x_t]+b_i)$
根据上式得到 $t$ 时刻input开度的量 $i_t$ 。
利用tanh激活函数压缩至[-1,1]范围得到 $C'_t$ ，并添加入状态块中： $C'_t=tanh(W_i[h_{t-1},x_t]+b_C)$
此时红色线代表 $C'_{t}$ 与 $i_t$ 相乘得到得过滤后得信息，即过滤后的新状态。

在这里插入图片描述
此时的 $C_t$ 为： $C_t=f_t*C_{t-1}+i_t*C'_t$ 。
该式含义：把旧状态乘以遗忘开度决定忘记的东西。然后，添加新的状态，并根据输入开度决定更新每个状态值的比例进行调整。

Output gate(输出门)

此时 $h_t$ 不理解为memory，将其作为输出理解， $C_t$ 相当于memory。
在这里插入图片描述
首先，根据 $o_t=\sigma(W_o[h_{t-1},x_t]+b_o)$ ，可知由sigmoid函数决定要输出的状态有哪些。
$h_t=o_t*tanh(C_t)$
将单元格状态通过tanh(将值推入到-1和1之间)，并将其乘以输出门的开度，只输出我们决定输出的部分。

总结

根据输出门与遗忘门的开度，可以实现几种行为

输入门	输出门	行为
1	1	增加先前值，即 $C_t$ 为： $C_t=f_tC_{t-1}+i_tC'_t$
0	0	擦除值，即 $C_t=0$
1	0	覆盖值，即 $C_t=C'_t$
0	1	记忆先前值，即 $C_t=C_{t-1}$

其实，LSTM在神经网络架构中是作为一个黑盒实现的，并且它可以在一定程度上解决梯度离散与梯度爆炸（相对于传统RNN的梯度计算，没有了 $W_{hh}^k$ 项）。

参考

图片来源：龙曲良老师的pytorch课程讲解PPT

SYBY

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
LSTM原理的理解

文章目录一、LSTM是什么二、实现的主要流程1.sigmoid函数的使用2.LSTM的门（gate）Forget gate(遗忘门)Input gate(输入门)Output gate(输出门)总结参考一、LSTM是什么长短时记忆(LSTM)体系结构的设计是为了使信息在能够在需要之前的很长一段时间内都很容易记住。这个名字指的是一个网络的激活对应于短期记忆，而权重对应于长期记忆。如果这些激活可以长时间保存信息，那么它们就是长短时记忆。二、实现的主要流程1.sigmoid函数的使用有sigmoi.
复制链接

扫一扫