LSTM
1、长短期记忆网络 LSTM(输入门、遗忘门、输出门)
长短期记忆网络(Long Short-Term Memory,LSTM)是一种循环神经网络(RNN)的变体,用于解决RNN中的梯度消失和梯度爆炸问题,以及更好地捕捉序列中的长期依赖关系。
Ⅰ输入门(Input Gate)
输入门控制着新的输入信息对记忆单元的影响。它通过对输入的加权选择来更新记忆单元的状态。输入门的作用是决定多少新信息应该进入记忆单元。
Ⅱ遗忘门(Forget Gate)
遗忘门决定了记忆单元中哪些信息应该被遗忘。它通过对之前的记忆状态进行加权选择来控制遗忘程度。遗忘门的作用是决定之前记忆中的哪些信息应该被保留。
Ⅲ输出门(Output Gate)
输出门决定了记忆单元中的信息应该输出到下一个时间步。它根据当前的输入和记忆单元的状态来生成输出。输出门的作用是控制哪些记忆状态应该被输出到网络的其他部分。
此外,LSTM的核心是记忆单元,用于存储和传递信息。它类似于一个内部状态,可以在不同时间步之间传递和修改。记忆单元具有一个激活值,表示当前时刻的记忆状态。
2、LSTM如何克服梯度消失
LSTM通过记忆单元和门控机制的设计,能够在一定程度上避免梯度消失问题。记忆单元允许信息在时间上流动,而门控机制(遗忘门、输入门和输出门)能够控制信息的更新和流动,从而更好地捕捉和处理序列中的长期依赖关系。这些机制使得LSTM能够有效地传播梯度,避免梯度在反向传播过程中消失,使得深层网络能够更好地学习和训练。
3、门控循环单元神经网络 GRU(更新门、重置门)
门控循环单元(Gated Recurrent Unit,GRU)是一种循环神经网络(RNN)的变体,与长短期记忆网络(LSTM)类似,也是为了解决梯度消失和梯度爆炸问题,以及更好地处理序列中的长期依赖关系。
GRU引入了两个门控机制:更新门(Update Gate)和重置门(Reset Gate)。这些门控机制允许网络选择性地更新和传递信息,从而提高了模型的表示能力和学习能力。
Ⅰ更新门(Update Gate)
更新门控制着前一个隐藏状态和当前输入之间的信息流。它决定了前一个隐藏状态应该如何与当前输入进行混合,以及前一个隐藏状态中多少信息应该被保留下来。通过更新门,GRU能够灵活地控制前一个隐藏状态中的信息更新程度。
Ⅱ重置门(Reset Gate)
重置门决定了前一个隐藏状态对当前输入的影响程度。它决定了前一个隐藏状态应该如何与当前输入进行组合,以及前一个隐藏状态中多少信息应该被重置。通过重置门,GRU能够灵活地调整前一个隐藏状态的权重。
此外,GRU通过使用更新门和重置门来计算当前隐藏状态(Current Hidden State)。当前隐藏状态是根据前一个隐藏状态、当前输入和门控信息来更新的。更新门决定了前一个隐藏状态和当前输入的混合程度,而重置门决定了前一个隐藏状态的重置程度。