目录
1. 概述
本文是作者自学深度学习的第10篇章(学习资料为李沐老师的深度学习课程),主要对LSTM模型中的基本概念,包括遗忘门、输入门、输出门、候选记忆元、LSTM的网络架构等内容进行了整理。
2. 遗忘门、输入门、输出门、候选记忆元
在LSTM模型中引入了遗忘门、输入门、输出门三个控制单元,其中,遗忘门控制记忆单元的遗忘程度,输入门控制何时将数据读入单元,输出门控制记忆单元到隐状态之间的映射关系。
值得注意的是,这三个门都使用了sigmoid作为激活函数将输出映射到 [0,1] 实现 “软” 控制。具体而言,LSTM使用下式来计算三个门:
其中, 的大小和隐藏层单元大小一样,因此后续我们可以将其与隐藏层单元按元素相乘。
此外,在LSTM中,我们定义了 “候选记忆元” , 其定义为:
3. 记忆元
在LSTM中,采用下式计算记忆元:
可见遗忘门控制前一记忆门对当前记忆门的影响,输入门控制候选记忆元对当前记忆元的影响。
4. 隐状态
在LSTM中,采用下式计算隐状态:
可见输出门控制记忆元对隐状态的影响程度。
5. LSTM网络架构
LSTM网络的典型架构如下:
其计算步骤为:
- 计算遗忘门、输入门、输出门
- 计算候选记忆元
- 根据输出门计算隐状态