RNN
我们知道,RNN是在有序的序列中学习的,为了记住这个数据,RNN会像人一项样产生相关记忆,在反向过程中存在参数W,由于参数W的大小,当参数W为一个零点几的数是,经过无数次的循环,最后反馈得到的梯度可能为零,也就是经常说的梯度消失;但如果W是一个一点多的数据,多次之后就会成为一个万亿大的数,这就是通常说的梯度爆炸。
后来的simpleRRN采用一个tanth函数,将数据转化为负一到正一之间的数据。
但RNN还有一个问题,就是短期记忆,导致之前的数据被遗忘,为了解决被遗忘和梯度消失的问题,产生了LSTM,LSTM存在四个参数矩阵,利用传输带避免梯度消失问题,可以有更长的记忆。
我觉得B站有个同学讲的很详细,具体的情况大家可以参考,内容不长,讲的很细致。https://www.bilibili.com/video/BV1fp4y1t7Xb?p=2
推荐给大家