一、RNN的梯度消失有什么不同之处
先说结论:RNN的梯度等于近距离梯度与远距离梯度的和,RNN的梯度消失是远距离梯度的消失,而近距离梯度不会消失,同时总的梯度不会消失,从而导致总的梯度由近距离梯度占主导。
提到梯度消失,你肯定会说是因为网络层次太深,导致导数连乘项太多,所以梯度很小。这种回答适用于深度神经网络,但不适用于RNN。
因为RNN的梯度是一个和!!而且RNN的是共享一套参数的!
但我们在理解RNN的时候,经常喜欢把RNN按时间序列展开,可能会误解RNN是多套参数的,但其实是共用一套参数。
假设时间序列为3,将RNN展开就如上图所示,每一个时刻的隐状态和输出分别如下式:
假设我们现在处理的任务只需要用t=3时刻的输出去训练模型:
l
对Wx,Ws,Wo求偏导: