LSTM学习记录


前言

一些关于LSTM的学习记录。


一、为什么要用LSTM?

LSTM(Long short-term memory),长短时记忆网络。

在学习LSTM之前,我们首先应当掌握RNN网络的相关知识,RNN是循环神经网络,是一个高度重视序列信息的网络。序列,即意味着“前后关系”。

RNN的基础结构仍是神经网络,但为了存放序列信息,其比全连接多了隐藏层的循环操作,它具有一定的记忆功能,但其缺点是输入数据越早,在隐藏层所占据的影响越小,故为克服其弊端,LSTM由此诞生。

二、LSTM结构介绍

1.大体结构

LSTM参考人类的记忆模式,记住重要的信息、遗忘相对不重要的信息,为了实现这个功能,相对于RNN网络而言,LSTM增加了细胞状态(Cell State),我们可以将它看作是关于信息的“记忆”,上一层的细胞状态经过遗忘和新的记忆的选择存储后,继续流向下一个细胞。

LSTM在一个细胞内的结构

这里图中可见,细胞状态 Ct在最上面传播,隐藏层状态ht在下面传播,他们的初始状态为全0。隐藏层状态ht-1与新的输入xt对细胞状态进行修改。

在一个细胞中包含三个门,从左到右依次是遗忘门、输入门和输出门。

2.三个门结构

(1)遗忘门
在这里插入图片描述

遗忘门将上一层的隐藏状态ht和当前的输入Xt进行拼接,传入sigmod函数中,映射到[0,1]中,越接近0则意味着越应该被丢弃,越接近1则意味着越应该被保留。与上一层的细胞状态Ct-1相乘,就是完成了对Ct-1中信息的选择,对不重要信息的遗忘。

(2)输入门
在这里插入图片描述

输入门决定加入多少新输入的信息到细胞状态中来。可以看到输入门分为 it 和 Ct 两部分,前者同遗忘门类似,将其映射到[0,1]之间,0表示不重要,1表示重要;后者输入tanh函数。 it 与后者相乘,决定了tanh输出结果的保留与舍弃,在这里我们将它看作是新输入信息的保留。

接下来就是对细胞状态的更新,经遗忘门与上层细胞状态点乘后得到的结果,与输入门得到的结果相加,就完成了对上层不重要信息的遗忘和新加入信息的选择保留,即结束了对细胞状态的更新。

(3)输出门
在这里插入图片描述

输出门确定的是将细胞状态的多少部分输出为隐藏状态的值ht。首先将已更新的细胞状态经过一个tanh函数的映射,与ht-1和xt经sigmod函数映射后的门相乘,确定隐藏状态应携带的信息。最后将更新后的隐藏状态ht和细胞状态Ct输入下一时刻。

总结

最后梳理:
遗忘门决定了遗忘多少上一层的细胞状态;
输入门决定保留多少新输入的信息;
输出门决定携带多少信息作为隐藏状态输入下一时刻的细胞。

在结构图中,细胞状态始终在最上面的线路进行更新传播,隐藏状态在下面线路;
细胞状态和隐藏状态的初始状态为全0;
细胞状态通过隐藏状态和输入信息进行调整和更新,隐藏状态通过更新后的细胞状态进行更新。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

要努力的小菜鸟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值