LSTM基本原理

最新推荐文章于 2024-08-21 10:25:32 发布

金色妖精

最新推荐文章于 2024-08-21 10:25:32 发布

阅读量967

点赞数

分类专栏： NLP 文章标签： lstm rnn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26972303/article/details/72753681

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

感觉RNN比CNN会难理解一点，刚开始对RNN并不是很理解，直到看了大神的这篇文章Understanding LSTM Networks才感觉理解了一些，写个总结。

三个门

原始输入循环体的是当前输入 $x_t$ 和上前一步的输出 $h_{t-1}$ ，以及上一步的状态 $C_{t-1}$ ,

$x_t$ ， $h_{t-1}$ 先遇到遗忘门（forget gate）：

$f_{t}=sigmoid(W_f[h_{t-1},x_t]+b_f)$

经过遗忘门的函数之后产生一个0到1之间的输出 $f_t$ ,代表遗忘多少之前的状态 $C_{t-1}$ ,当 $f_t$ 为0时代表全部遗忘，1代表完全保持。

另外一条路线上， $x_t$ ， $h_{t-1}$ 又会遇见输入门(input gate)，输入门会决定记忆哪些值：

$i_t=sigmoid(W_i[h_{t-1},x_t]+b_i)$

另外同时经过 $tanh$ 函数会产生一个新的状态 $C'_t$ ：

$C'_t=tanh(W_C[h_{t-1},x_t]+b_C)$

这个时候，由 $C_{t-1}$ , $f_t$ , $C'_t$ , $i_t$ 就可以决定循环体的当前状态 $C_t$ 了:

$C_t=f_t*C_{t-1}+i_t*C'_t$

有了当前的状态，自然就可以去输出门（output gate）了：

$o_t=sigmoid(W_o[h_{t-1},x_t]+b_o)$

$h_t=o_t*tanh(C_t)$

总结：从上面的公式，我们容易发现，每个门的形态是一样的，都是通过 $sigmoid$ 函数作用于当前的输入 $x_t$ 和前一时刻的输出 $h_{t-1}$ 产生一个0到1的数值，以此来决定通过多少信息。

循环体内部结构

先抛开这几个门，最简单的循环体内部就是一个全连接的神经网络，真实输出可能会再追加一个全连接的神经网络。

我们在用TensorFlow创建RNN模型的时候要设置hidden_size是真实输出的网络的输出神经元个数。

输入的数据是上一时刻的输出 $h_{t-1}$ 加上当前时刻的输入 $x_t$ ,如果是0时刻的话根据自己的设定填充。

比如当前输入神经元是x个上一状态的输入神经元是h个，那么合在一起的输入神经元就是（x+h）个，因为内部输出要作用于下一个循环体因此内部输出神经元也是h个，于是循环体内部就是(h+x)*h个权重和h个偏置，内部的输出再外接一个hidden_size个输出神经元的全连接层便产生了真实输出。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。