文章解析整理:《如果你还没搞懂LSTM 网络,那本文绝对值得一看》

本文仅是博主自己学习用来加深印象和留存整理,对该内容有兴趣请去阅读原文。

原文地址:
https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247485477&idx=1&sn=0d6bd491b593b497eb1f9d92f9afb10d&chksm=e99d3bdcdeeab2ca436750184f999a58b849be41a3a4ec1bd039b531accae124a2297e57ac0e&scene=21#wechat_redirect

循环神经网络(RNN)

循环神经网络(Recurrent Neural Networks)的特点是带有环,能使信息持久化,基于前面的信息进行处理。
这里写图片描述
但换言之,RNN和普通的神经网络也没什么不同。一个RNN可以看作是网络间的信息传递。
这里写图片描述

RNN在一系列的任务中都取得了令人惊叹的成就,比如语音识别,语言建模,翻译,图片标题等等。

LSTM(Long Short Term Memory)是一种特殊的循环神经网络,LSTM是RNN中出类拔萃的存在。

长期依赖的问题

RNN主要可以通过训练来预测待测位置和相关信息距离较小时的情况,比如预测句子“the clouds are in the sky”中的最后一个单词。而对于距离较远的上下文消息时,比如预测句子“I grew up in France… I speak fluent French”中的最后一个单词,RNN就显得无能为力了。幸运的是,LSTM可以用来解决这些。

LSTM网络

LSTM全称为长短期记忆网络,能够学习到长期依赖关系,能够记住长期信息。

普通RNN重复模块结构非常简单,例如只有一个tanh层。LSTM的重复模块中有四个神经网络层。
这里写图片描述
这里写图片描述

LSTM核心思想

LSTM的关键是元胞状态(Cell State),元胞状态有点像传送带,贯穿整个链,上面承载着信息。
这里写图片描述

LSTM通过门结构对元胞状态添加或者删除信息。
0值表示不允许信息通过,1值表示让所有信息通过。一个LSTM有3个这种门,来保护和控制元胞状态。

LSTM的分布详解

LSTM的第一步是决定我们将要从元胞状态扔掉哪些信息。该决定由叫做“遗忘门(Forget Gate)”的Sigmoid层控制。遗忘门观察 ht1 xt ,对于元胞状态 Ct1 中的每一个元素输出一个0~1之间的数。1则完全保留该信息,0表示完全丢弃该信息。
遗忘在什么时候发生呢?元胞状态可能包含当前主语的性别信息,当遇到一个新的主语时,我们就需要把旧的性别信息遗忘了。
这里写图片描述

下一步是决定我们对信息的存储。类似于前面,叫做输入门的层决定我们要更新的信息,另一个层,进一步判断候选值,之后就用于元胞状态的更新。将旧元胞状态 Ct1 更新到新状态 Ct
这里写图片描述
这里写图片描述

最后,需要决定最终的输出。总之是通过一定的限制,输出元胞的需要的部分。

LSTM的变种

提到了一些LSTM的改进版本,主要是对遗忘信息,记忆信息的更改和优化。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值