LSTM

最新推荐文章于 2023-04-01 08:55:03 发布

Collapsar_G

最新推荐文章于 2023-04-01 08:55:03 发布

阅读量255

点赞数

分类专栏：机器学习文章标签：自然语言处理人工智能算法深度学习机器学习

本文链接：https://blog.csdn.net/weixin_43460876/article/details/116108609

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

什么是LSTM

LSTM是SimpleRNN的变体，用来解决RNN中梯度消失的问题，相比普通的RNN，LATM在长序列中表现更好。

LSTM的原理

LSTM结构（图右）和普通RNN的主要输入输出区别

RNN通常只有一个传递状态 $h^t$ , 而LSTM通常有两个状态： $c^t$ 和 $h^t$ ;

可以将 $c^t$ 看作一个传送带，包含了RNN网络中每个时间结点的信息，常输出的 $c^t$ 是上一个状态传过来的 $c^{t-1}$ 加上一些数值。

而 $h^t$ 通常在不同结点差别很大。

$z=tanh(W*(x^t,h^{t-1}))$

$z^i=\sigma(W^i*(x^t,h^{t-1}))$

$z^f=\sigma(W^f*(x^t,h^{t-1}))$

$z^o=\sigma(W^o*(x^t,h^{t-1}))$

其中， $z^i,z^f,z^o$ 是是由拼接向量乘以权重矩阵之后，再通过一个 $s i g m o i d$ 激活函数转换成0到1之间的数值，来作为一种门控状态。而 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JYaWITEv-1619274258999)(https://www.zhihu.com/equation?tex=z)] 则是将结果通过一个 $t a n h$ 激活函数将转换成-1到1之间的值（这里使用 $t a n h$ 是因为这里是将其做为输入数据，而不是门控信号)。

上面四种状态的使用

$\odot$ 是Hadamard Product，也就是操作矩阵中对应的元素相乘，因此要求两个相乘矩阵是同型的。
$\oplus$ 则代表进行矩阵加法

LSTM内部主要有三个阶段：

忘记阶段。这个阶段主要是对上一个节点传进来的输入进行选择性忘记。简单来说就是会 “忘记不重要的，记住重要的”。

具体来说是通过计算得到的 $z^f$ 来作为忘记门控，来控制上一个状态的 $c^{t-1}$ 哪些需要留哪些需要忘。
选择记忆阶段。这个阶段将这个阶段的输入有选择性地进行“记忆”。主要是会对输入 $x^t$ 进行选择记忆。哪些重要则着重记录下来，哪些不重要，则少记一些。当前的输入内容由前面计算得到的 $z$ 表示。而选择的门控信号则是由 $z^i$ 来进行控制。

将上面两步得到的结果相加，即可得到传输给下一个状态的 $c^t$ 。也就是上图中的第一个公式。

输出阶段。这个阶段将决定哪些将会被当成当前状态的输出。主要是通过 $z^o$ 来进行控制的。并且还对上一阶段得到的 $z^o$ 进行了放缩（通过一个tanh激活函数进行变化）。

与普通RNN类似，输出 $y^t$ 往往最终也是通过 $h^t$ 变化得到。

优缺点

优点：解决了SimpleRNN梯度消失的问题，可以处理long-term sequence
缺点：计算复杂度高，想想谷歌翻译也只是7-8层LSTM就知道了；自己跑代码也有明显的感觉，比较慢。

参考文献

LSTM原理与实践，原来如此简单
[人人都能看懂的LSTM](

Collapsar_G

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LSTM

什么是LSTMLSTM是SimpleRNN的变体，用来解决RNN中梯度消失的问题，相比普通的RNN，LATM在长序列中表现更好。LSTM的原理LSTM结构（图右）和普通RNN的主要输入输出区别RNN通常只有一个传递状态hth^tht, 而LSTM通常有两个状态：ctc^tct和hth^tht;可以将ctc^tct看作一个传送带，包含了RNN网络中每个时间结点的信息，常输出的ctc^tct是上一个状态传过来的ct−1c^{t-1}ct−1加上一些数值。而hth^tht通常在不同结点差别很大
复制链接

扫一扫

专栏目录