【神经网络】LSTM理论介绍

Recurrent Neural Networks

RNN可以看做是同一神经网络的多次复制,每个神经网络模块会把消息传递给下一个。
在这里插入图片描述
LSTM是一种特别的RNN。

长期依赖问题(Long-Term Dependencies)

相关的信息和预测的词位置之间的间隔非常小时,RNN可以学会使用先前的信息;
当间隔不断增大时,RNN会丧失学习到连接如此远的信息的能力。
在这里插入图片描述

LSTM 网络

Long Short Term 网络 可以学习长期依赖信息。
所有RNN都具有一种重复神经网络模块的链式的形式,在标准的RNN中,这个重复的模块只有一个非常简单的结构,例如一个tanh层。
在这里插入图片描述
LSTM中的重复模块包含四个交互的层。
在这里插入图片描述

LSTM的核心思想

LSTM的关键是细胞状态,水平线在图上方贯穿运行。
在这里插入图片描述

门:让信息选择式通过

包含一个sigmoid神经网络层和一个pointwise乘法操作。
在这里插入图片描述
Sigmoid层输出0到1之间的数值,描述每个部分有多少量可以通过。
LSTM有3个门,来保护和控制细胞状态。

第一步:决定从细胞状态中丢弃什么信息

通过忘记门层完成,该门会读取 h t − 1 h_{t-1} ht1 x t x_t xt ,输出一个在0到1之间的数值给每个在细胞状态 C t − 1 C_{t-1} Ct1 中的数字。 (1表示“完全保留”,0表示“完全舍弃”)

  • 举个例子:在语言模型中,细胞状态可能包含当前主语的性别,因此正确的代词可以被选择出来,而当遇到新的主语,我们希望它可以忘记旧的主语
    在这里插入图片描述
第二步:决定什么样的新信息被存放在细胞状态中

包含两个部分:

  • 输入门层(sigmoid层)决定什么值将要更新
  • tanh层创建一个新的候选值向量 C ~ t \tilde{C}_{t} C~t,会被加到状态中
    在语言模型的例子中:
  • 我们需要增加新的主语的性别到细胞状态中,来替代旧的需要忘记的主语。
    在这里插入图片描述
第三步:确定输出什么值
  • 首先运行一个sigmoid层来确定细胞状态的哪个部分将输出出去
  • 接着把细胞状态通过tanh进行处理(得到-1到1之间的值)
  • 然后两者相乘
    在这里插入图片描述

双向循环神经网络(BRNN)

BRNN有两个RNN上下叠加在一起组成。
在这里插入图片描述
对每个时刻t,输入会同时提供给两个方向相反的RNN,输出由这两个单向RNN共同决定。

BiLSTM

前向的LSTM与后向的LSTM结合成BiLSTM。
在这里插入图片描述

参考资料:

  1. https://zhuanlan.zhihu.com/p/40119926
  2. https://zhuanlan.zhihu.com/p/47802053
  3. https://blog.csdn.net/SunJW_2017/article/details/82837072
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值