LSTM

最新推荐文章于 2024-06-04 08:33:51 发布

IT菜小白

最新推荐文章于 2024-06-04 08:33:51 发布

阅读量3.1k

点赞数

分类专栏： Tensorflow 文章标签： LSTM 学习笔记

Tensorflow 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1.LSTM的结构：

图中各关键部分的含义：

LSTM 的关键就是状态，水平线在图上方贯穿运行。细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。

LSTM有三个门，门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个按位做乘法操作。

具体来看：

该门会读取 h_{t-1} 和 x_t，输出一个在 0 到 1 之间的数值给每个在细胞状态 C_{t-1} 中的数字。1 表示“完全保留”，0 表示“完全舍弃”。这一步决定丢弃信息。

下一步是确定什么样的新信息被存放在状态中。这里包含两个部分第一，sigmoid 层称 “输入门层” 决定什么值我们将要更新。然后，一个 tanh 层创建一个新的候选值向量Ct，会被加入到状态中。下一步，这两个信息会对状态进行更新。这一步确定更新的信息。

把旧状态与 f_t 相乘，丢弃掉我们确定需要丢弃的信息。接着加上Ct这就是新的候选值，决定更新每个状态的程度进行变化。

最终，我们需要确定输出什么值。这个输出将会基于我们的细胞状态，但是也是一个过滤后的版本。首先，我们运行一个 sigmoid 层来确定细胞状态的哪个部分将输出出去。接着，我们把细胞状态通过 tanh 进行处理（得到一个在 -1 到 1 之间的值）并将它和 sigmoid 门的输出相乘，最终我们仅仅会输出我们确定输出的那部分。

一个简单的例子（需结合实际问题）：

import tensorflow as tf


lstm_hidden_size = 4
batch_size = 100
#定义一个LSTM结构
lstm = tf.nn.rnn_cell.BasicLSTMCell(lstm_hidden_size)
# 将状态初始化为全0数组。
state = lstm.zero_state(batch_size, tf.float32)

#定义损失函数
loss = 0.0
# num_steps 表示序列的最大长度
for i in range(num_steps):
    if i > 0:
        # 在第一个时刻声明LSTM结构中使用的变量，在之后的时刻都需要复用之前定义好的变量
        tf.get_variable_scope().reuse_variables()
        #每一步处理时间序列中的一个时刻。将当前输入和前一时刻状态传入定义的LSTM结构可以得到当前LSTM结构的输出
        #和更新后的状态
        lstm_output, state = lstm(current_input, state)
        final_output = fully_connected(lstm_output)
        loss = loss + cal_loss(final_output, ecpected_output)

转载链接：https://www.jianshu.com/p/9dc9f41f0b29

IT菜小白

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
LSTM

1.LSTM的结构：图中各关键部分的含义：LSTM 的关键就是状态，水平线在图上方贯穿运行。细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。LSTM有三个门，门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个按位做乘法操作。
复制链接

扫一扫