一、介绍什么是LSTM网络输入门
1、定义
长短期记忆网络(LSTM)是一种常用于处理和预测时间序列数据的深度学习模型。它使用门控机制来控制信息流动,其中输入门(input gate)是其中之一。输入门有助于控制在每个时间步中,新的信息应该如何被接受和存储。
2、主要结构图
二、其作用和步骤:
1、作用
输入门的作用是控制当前时间步的输入信息是否应该被记忆单元(memory cell)所接受。
2、步骤
输入门由一个 Sigmoid 激活函数产生,该函数的输出在0到1之间。输入门的计算通常包括以下步骤:
-
输入门的计算
- 以 (h_{t-1})(前一个时间步的隐藏状态)和 (x_t)(当前时间步的输入)为输入。
- 使用权重矩阵将这两个输入相乘并添加偏置项。
- 将结果分成两部分:一部分用于控制更新(sigmoid 激活函数),另一部分用于生成候选值(tanh 激活函数)。
-
控制更新(Input Gate)
- Sigmoid 函数的输出表示哪些信息将被更新。
- 值接近 0 意味着信息将被忘记,而值接近 1 意味着信息将被纳入记忆。
-
生成候选值(Candidate Values)
- tanh 函数的输出创建一个新的候选值向量,其中包含可能的要记忆的信息。
-
将输入门控制的候选值与记忆单元进行更新
- 计算新的记忆单元状态(cell state):之前的记忆单元状态乘以遗忘门的输出,然后加上输入门控制的候选值乘以输入门的输出。
3、总结
这种门控机制允许LSTM网络选择性地记住或忘记信息,这有助于解决长期依赖问题,并且有助于处理梯度消失和梯度爆炸等问题,从而增强了网络对时间序列数据的建模能力。