LSTM

1.LSTM的结构:


图中各关键部分的含义:

LSTM 的关键就是状态,水平线在图上方贯穿运行。细胞状态类似于传送带。直接在整个链上运行,只有一些少量的线性交互。信息在上面流传保持不变会很容易。


LSTM有三个门,门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个按位做 乘法操作。

                                                                        

具体来看:

该门会读取 h_{t-1}x_t,输出一个在 0 到 1 之间的数值给每个在细胞状态 C_{t-1} 中的数字。1 表示“完全保留”,0 表示“完全舍弃”。这一步决定丢弃信息。



下一步是确定什么样的新信息被存放在状态中。这里包含两个部分第一,sigmoid 层称 “输入门层” 决定什么值我们将要更新。然后,一个 tanh 层创建一个新的候选值向量Ct,会被加入到状态中。下一步,这两个信息会对状态进行更新。这一步确定更新的信息。

把旧状态与 f_t 相乘,丢弃掉我们确定需要丢弃的信息。接着加上Ct这就是新的候选值,决定更新每个状态的程度进行变化。

最终,我们需要确定输出什么值。这个输出将会基于我们的细胞状态,但是也是一个过滤后的版本。首先,我们运行一个 sigmoid 层来确定细胞状态的哪个部分将输出出去。接着,我们把细胞状态通过 tanh 进行处理(得到一个在 -1 到 1 之间的值)并将它和 sigmoid 门的输出相乘,最终我们仅仅会输出我们确定输出的那部分。

一个简单的例子(需结合实际问题):

import tensorflow as tf


lstm_hidden_size = 4
batch_size = 100
#定义一个LSTM结构
lstm = tf.nn.rnn_cell.BasicLSTMCell(lstm_hidden_size)
# 将状态初始化为全0数组。
state = lstm.zero_state(batch_size, tf.float32)

#定义损失函数
loss = 0.0
# num_steps 表示序列的最大长度
for i in range(num_steps):
    if i > 0:
        # 在第一个时刻声明LSTM结构中使用的变量,在之后的时刻都需要复用之前定义好的变量
        tf.get_variable_scope().reuse_variables()
        #每一步处理时间序列中的一个时刻。将当前输入和前一时刻状态传入定义的LSTM结构可以得到当前LSTM结构的输出
        #和更新后的状态
        lstm_output, state = lstm(current_input, state)
        final_output = fully_connected(lstm_output)
        loss = loss + cal_loss(final_output, ecpected_output)

转载链接:https://www.jianshu.com/p/9dc9f41f0b29









  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值