1.LSTM的结构:
图中各关键部分的含义:
LSTM 的关键就是状态,水平线在图上方贯穿运行。细胞状态类似于传送带。直接在整个链上运行,只有一些少量的线性交互。信息在上面流传保持不变会很容易。
LSTM有三个门,门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个按位做 乘法操作。
具体来看:
该门会读取 h_{t-1}
和 x_t
,输出一个在 0 到 1 之间的数值给每个在细胞状态 C_{t-1}
中的数字。1 表示“完全保留”,0 表示“完全舍弃”。这一步决定丢弃信息。
下一步是确定什么样的新信息被存放在状态中。这里包含两个部分第一,sigmoid 层称 “输入门层” 决定什么值我们将要更新。然后,一个 tanh 层创建一个新的候选值向量Ct,会被加入到状态中。下一步,这两个信息会对状态进行更新。这一步确定更新的信息。
把旧状态与 f_t
相乘,丢弃掉我们确定需要丢弃的信息。接着加上Ct这就是新的候选值,决定更新每个状态的程度进行变化。
最终,我们需要确定输出什么值。这个输出将会基于我们的细胞状态,但是也是一个过滤后的版本。首先,我们运行一个 sigmoid 层来确定细胞状态的哪个部分将输出出去。接着,我们把细胞状态通过 tanh 进行处理(得到一个在 -1 到 1 之间的值)并将它和 sigmoid 门的输出相乘,最终我们仅仅会输出我们确定输出的那部分。
一个简单的例子(需结合实际问题):
import tensorflow as tf
lstm_hidden_size = 4
batch_size = 100
#定义一个LSTM结构
lstm = tf.nn.rnn_cell.BasicLSTMCell(lstm_hidden_size)
# 将状态初始化为全0数组。
state = lstm.zero_state(batch_size, tf.float32)
#定义损失函数
loss = 0.0
# num_steps 表示序列的最大长度
for i in range(num_steps):
if i > 0:
# 在第一个时刻声明LSTM结构中使用的变量,在之后的时刻都需要复用之前定义好的变量
tf.get_variable_scope().reuse_variables()
#每一步处理时间序列中的一个时刻。将当前输入和前一时刻状态传入定义的LSTM结构可以得到当前LSTM结构的输出
#和更新后的状态
lstm_output, state = lstm(current_input, state)
final_output = fully_connected(lstm_output)
loss = loss + cal_loss(final_output, ecpected_output)
转载链接:https://www.jianshu.com/p/9dc9f41f0b29