LSTM 三重门背后的故事
在前面的文章中我们知道了基本的 RNN 很容易出现梯度消失的问题,并且列出了梯度消失的几个解决方案,其中包括 LSTM 模型,今天就来看看 LSTM 是怎样解决这个问题的。
本文知识点:
LSTM 的结构
- 为什么 LSTM 要有三重门?
- 如何将三道门相连?
LSTM 的前向计算
反向传播
LSTM 是如何解决梯度消失的
在文章的末尾会列出几个关于 LSTM 的面试真题,大家在学习完本节内容后可以用这些题目检验一下自己是否能够回答上来。
首先我们来看一下 LSTM 的结构。
LSTM: Long short-term memory 长短期记忆网络也是一种 RNN 结构,因为它也具有反馈连接。在结构上,它和基本 RNN 的区别在于多了三个门控单元和一个长期状态,这样的结构使它可以学习到数据的长期时间依赖性,可以解决基本 RNN 的梯度消失问题。LSTM 的应用也很广,可以用于图像,音频,视频,金融数据等多种领域。
1. LSTM 的结构
LSTM 的结构如下图所示:
用数学表达为:
$ it = \sigma (Wi h{t-1} + Ui x{t} + bi)$ $ ot = \sigma (Wo h{t-1} + Uo x{t}