#通俗理解# LSTM网络

在这里插入图片描述

简单来说,LSTM通过一条主线,三个门来处理序列信息;每个时刻主线上都会加入新时刻的数据,然后将主线上的上的数据输出并传递给下时刻

补充知识

这里对LSTM常用到的几个计算和函数做一个说明:
sigmoid函数:用于输出一个0~1的概率值或比例值,一般搭配乘法运算,用于控制信息传递的比例,同时sigmoid的非线性变换能够增加模型学习非线性特征的能力;一般激活函数的作用就是增加模型学习非线性特征的能力,因为单纯的矩阵乘法没有学习非线性特征的能力
乘法:一般将一个比例值和信息相乘,用于控制信息传递的比例
加法:一般将两种信息想加,做信息的融合

主线

主线上的值是历史时刻输出门值的加权和
每一时刻,主线上的值都会更新为当前主线上的值当前输出门的值的加权和;第一个权重由遗忘门得到,第二个权重由输出门内部的sigmoid函数得到;这种方式类似于指数加权平均,时间距离远的输出门权重更小
在这里插入图片描述

遗忘门

对于每一个新时刻,主线的值会更新为当前主线上的值当前输出门的值的加权和,而遗忘门的作用是:给出当前主线数据的权重

具体计算方法如下:
将上一时刻的输出、当前时刻的输入拼接成一个长向量后和权重矩阵点乘,然后通过sigmoid函数输出一个0~1的数据,最后用于和主线上的数据做乘法;
遗忘门的意义在于更新后的当前主线数据更新后主线数据的比例(0全部舍弃,1全部接受)
在这里插入图片描述
补充:
LSTM 刚提出时没有遗忘门,等价于遗忘门输出的值恒为1,这样一来就保证了主线上的信息会完全被当前时刻接受,不会消失。类似于 ResNet 中的残差连接。

输人门

输入门的作用是:对于新时刻,将新时刻的信息按一定权重加到主线上,从而更新主线值
输人门需要计算以下两个值:

  • 加入到主线的值,ct
  • 加入到主线的值得比例(0~1),it

ctit 都是通过将上一时刻的输出当前时刻的输入拼接成一个长向量然后和权重矩阵点乘得到的 ,但 ct 使用tanh函数激活后输出;而 it 使用sigmoid函数激活后输出一个0~1的概率值;

最后将 ct 和当前主线上的值加权相加得到新的主线值,权重分别为 it遗忘门的输出

在这里插入图片描述
在这里插入图片描述

输出门

在这里插入图片描述
输出门用于输出的当前时刻模型计算的值;输出门和输入门类似,需要计算输出值输出值的比例 ot,最后将两个值相乘做为输出门的输出

输出值:
将主线上的值通过一个tanh函数激活得到

输出值的比例( ot ):
通过将当前时刻输入上一时刻的输出拼接成一个长向量然后和权重矩阵点乘得到,最后通过sigmoid函数转化成一个0~1之间的比例

输出门输出( ht ):
将模型输出的值和输出值的比例相乘得到最终模型的输出
模型的输出会传递到两个地方,一个直接输出,一个传递到下一时刻

改进LSTM

  1. 使用多层LSTM结构,类似多层全连接网络,只是将全连接网络中的神经元替换成LSTM神经元
  2. 使用双向LSTM(BiLSTM),使LSTM能够同时参考当前时刻之前和当前时刻之后的信息,但双向LSTM只是简单的将两个LSTM得到的输出拼接到一起,前后信息没有交流,因此时间信息的获取能力要弱于Transformer的self-attention,同时相比于self-attention,LSTM容易出现梯度弥散
  3. 使用dropout,但是这里的dropout和RNN的关系不大; dropout不使用在LSTM神经元内部,而是使用在多层LSTM网络的的不同的网络层之间
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

energy_百分百

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值