![074722b9bea48a732a258f3f5fa8ee09.png](https://i-blog.csdnimg.cn/blog_migrate/cb96487054092e81a0d2a375703346ba.jpeg)
这一讲主要研究RNN中梯度消失以及梯度爆炸问题,以及为解决梯度消失而设计的RNN模型的变种如LSTM,GRU等模型。
梯度消失
RNN理论上是可以捕捉较早的历史信息,但是由于Vanishing Gradient的问题会导致远程信息无法有效的被捕捉到。
RNN的输入、输出及hidden state的关系有如下的公式表示:
并且其损失函数为
所以损失函数相对于W的梯度为
其中
假设矩阵W的最大的本征值也小于1,则t-k越大即其相距越远,其梯度会呈指数级衰减,这一问题被称作vanishing gradient梯度消失,它导致我们无法分辨t时刻与k时刻究竟是数据本身毫无关联还是由于梯度消失而导致我们无法捕捉到这一关联。这就导致了我们只能学习到近程的关系而不能学习到远程的关系,会影响很多语言处理问题的准确度。</