循环神经网络LSTM网络

目录

前言

一、LSTM的背景

二、LSTM网络的结构

1、遗忘门

2、输入门

3、输出门

4、仓库状态(cell)

三、LSTM网络的运算

​编辑 

 


前言

在循环神经网络中使用RNN模型处理长期依赖问题时梯度会随着时间的推移不断下降减少的问题。而LSTM网络就可以很好的解决这种问题,LSTM是一种RNN特殊的类型,可以学习长期依赖信息,大部分与RNN模型相同,但它们用了不同的函数来计算隐状态。LSTM可以学习只保留相关信息来进行预测,并忘记不相关的数据。简单说,因记忆能力有限,记住重要的,忘记无关紧要的。

一、LSTM的背景

在传统的循环神经网络(RNN)中,由于梯度消失或梯度爆炸的问题,模型在处理长序列数据时往往无法捕捉到长距离依赖关系。为了解决这个问题,Hochreiter 和 Schmidhuber 在 1997 年提出了长短时记忆网络(LSTM),它是一种特殊的 RNN 结构,通过引入门控机制来增强模型对长期依赖关系的捕获能力。
 

二、LSTM网络的结构

LSTM 的核心结构包括三个门(遗忘门、输入门和输出门)以及一个仓库(cell)。

1、遗忘门

功能:决定应丢弃哪些关键词信息。

步骤:来自前一个隐藏状态的信息和当前输入的信息同时传递到 sigmoid 函数中去,输出值介于 0 和 1 之间,越接近 0 意味着越应该丢弃,越接近 1 意味着越应该保留。

 

2、输入门

功能:用于更新细胞状态。

步骤:

(1)、首先将前一层隐藏状态的信息和当前输入的信息传递到 sigmoid 函数中去。将值调整到 0~1 之间来决定要更新哪些信息。0 表示不重要,1 表示重要。

(2)、将前一层隐藏状态的信息和当前输入的信息传递到 tanh 函数中去,创造一个新的侯选值向量。最后将 sigmoid 的输出值与 tanh 的输出值相乘,sigmoid 的输出值将决定 tanh 的输出值中哪些信息是重要且需要保留下来的。 

3、输出门

功能:用来确定下一个隐藏状态的值。

步骤:

(1)、将前一个隐藏状态和当前输入传递到 sigmoid 函数中,然后将新得到的细胞状态传递给 tanh 函数。

(2)、将 tanh 的输出与 sigmoid 的输出相乘,以确定隐藏状态应携带的信息。再将隐藏状态作为当前细胞的输出,把新的细胞状态和新的隐藏状态传递到下一个时间步长中去。

4、仓库状态(cell)

功能:细胞状态是 LSTM 中最核心的部分,它贯穿于整个 LSTM 单元,负责携带信息以及细胞状态的更新。

步骤:

(1)、通过与遗忘门输出的乘积运算,丢弃掉不再需要的信息;

(2)、通过与输入门输出的乘积运算,加入新的信息。这样,细胞状态就在整个序列中传播,同时保留重要的信息。 

三、LSTM网络的运算

 

 

输入值x与隐状态h的运算与RNN网络类似

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值