LSTM神经网络

LSTM是什么

LSTM即Long Short Memory Network,长短时记忆网络。它其实是属于RNN的一种变种,可以说它是为了克服RNN无法很好处理远距离依赖而提出的。

我们说RNN不能处理距离较远的序列是因为训练时很有可能会出现梯度消失,即通过下面的公式训练时很可能会发生指数缩小,让RNN失去了对较远时刻的感知能力。


4e8c76d36f1373319725db749001f0ca483943e0

解决思路

6725322e8d3f8655f6f7d45e6368f1bbd89edeb4

LSTM模型

回顾一下RNN的模型,如下图,展开后多个时刻隐层互相连接,而所有循环神经网络都有一个重复的网络模块,RNN的重复网络模块很简单,如下下图,比如只有一个tanh层。 
这里写图片描述

这里写图片描述

而LSTM的重复网络模块的结构则复杂很多,它实现了三个门计算,即遗忘门、输入门和输出门。每个门负责是事情不一样,遗忘门负责决定保留多少上一时刻的单元状态到当前时刻的单元状态;输入门负责决定保留多少当前时刻的输入到当前时刻的单元状态;输出门负责决定当前时刻的单元状态有多少输出。

这里写图片描述

每个LSTM包含了三个输入,即上时刻的单元状态、上时刻LSTM的输出和当前时刻输入。

LSTM的机制

这里写图片描述


9aaf6e67a7da653a29b800df2212153a863ecaf7

这里写图片描述


b64350136626e212b87b540bf7623f2e050e15e2


这里写图片描述


036a0336102fc99322278228c42c100e2e208aa9


这里写图片描述


66d510c2786f619a7a38984b14c7e5c6aadcfbff


这里写图片描述

LSTM的训练


3d3752800197c37db2b52de0d2b112090aace04d


f8c44490a173eddd15fe3eb02fc358dc943ce99a

d493d24ce97e6206a2f1b828cf419f8dc8874f5e

c0817b679b98a7b65571b82d9f5369a25bafccbe

dd07276878ca972a925ced605d0fb2b6d6cdda91

5bb87a5fdf4a4382a4056105a25ecc2e3bc1bd8a



相关阅读: 
循环神经网络 
卷积神经网络 
机器学习之神经网络 
机器学习之感知器 
神经网络的交叉熵损失函数


========广告时间========

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了,有需要的朋友可以到 https://item.jd.com/12185360.html 进行预定。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

=========================

欢迎关注:

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值