长短期记忆网络_长短期记忆网络(LSTM)简介

一、长期依赖的问题

循环神经网络的一个吸引人的地方在于其能够结合之前的状态保留下来的信息来用于当前任务的处理,比方说其可以利用视频文件中之前的帧所包含的信息来帮助理解当前的图像帧,或者根据句子中之前的文字信息来预测之后可能出现的单词。有时候我们只需考虑最近的信息来帮助解决当前的任务,比方说我们想要预测句子"The clouds are in the sky."中的最后一个单词,我们只需要前面位置不远的几个词汇即可进行有效的预测; 而当我们面临下面这样的文本"I grew up in France… I speak fluent French."来预测最后一个单词时,前面位置相近的词汇所能提供的信息或许只是最后的单词是一个语言的名字,若我们考虑更长的依赖关系我们便能够将这个范围缩小到"French"。LSTM就是针对数据的长短期依赖关系所提出的一个十分经典的循环神经网络结构,并且在自然语言处理,视频理解与目标检测,深度强化学习等领域有着十分广泛的应用。

二、关于LSTM的一个直觉理解

考虑这样一个场景,当我们在看一个精彩的电影时,我们会被电影中的各个精彩情节所吸引,但是我们不能够记住所有的电影情节。当观影结束时,我们会立马忘记电影里面一些无关紧要的情节,留在我们脑海中的可能更多的是一些对剧情发展起关键作用的场景,这些场景可能在之后的很长一段时间后依然停留在我们的脑海中,以至于当我们去观看电影的续集时还能够利用到之前所观看的电影的情节作为铺垫来帮助我们理解新的内容。人类的这一记忆过程可以抽象为对已有知识的选择性遗忘与选择性保留,事实上LSTM模块的设计便是与这一记忆过程有着十分密切的联系的。

三、LSTM的基本结构

LSTM与基本的递归神经网络具有类似的控制流程,不同的是LSTM基本单元内部的控制逻辑要稍稍复杂。LSTM的核心部件是基本单元,其中包含几个控制结构来对序列中的数据进行处理。LSTM基本块可以通过内部的门结构,包括遗忘门,更新门,输出门,来对之前的输入信息进行增加与遗忘,一个基本块内部基本单元之间的关系如下图所示。

8410d152c39f018ab45e7b067bb3f294.png
图1. LSTM基本单元结构

3.1 遗忘门

为了便于说明,我们可以用一个简单的例子来说

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值