参考 RNN: 将计算第100个输出的公式展开,发现第0个输入x0前面的权重,多达100个W在进行相乘,因此容易造成梯度消失或者梯度爆炸。越长的越明显。 LSTM: 引入门进制,来实现捕捉较长的距离依赖。 利用门,选择性的改变记忆。 遗忘门来选择多少进行遗忘,更新门来选择保留多少当前的信息。 相当于一个写笔记本的过程,笔记本容量一定,看到重要的,可能要擦掉过去的一部分来写新的。 biLSTM: