我们都知道RNN到迭代后期会出现“梯度消失”的问题;
我们也知道LSTM是RNN的变形和改进,它解决了RNN中的“梯度消失”问题;
我们还知道LSTM的各种门(遗忘门、输入门、输出门)。
但是,我们不知道究竟LSTM是如何通过这些门解决“梯度消失”的,反正之前我一直很含糊,现在,我们就一探究竟。
1.初识RNN与LSTM:
为了更好的直观上比较二者的不同,我决定直接上图:
普通RNN:
LSTM:
我们都知道RNN到迭代后期会出现“梯度消失”的问题;
我们也知道LSTM是RNN的变形和改进,它解决了RNN中的“梯度消失”问题;
我们还知道LSTM的各种门(遗忘门、输入门、输出门)。
但是,我们不知道究竟LSTM是如何通过这些门解决“梯度消失”的,反正之前我一直很含糊,现在,我们就一探究竟。
为了更好的直观上比较二者的不同,我决定直接上图:
普通RNN:
LSTM: