many to many的第二种情况x部分维encoder,y部分为decoder
RNN由于梯度消失的问题,往往不能获取长期的依赖关系(由于梯度消失),GRU可以(因为门的值可能是很小的0.000001)
梯度爆炸 参数nan很容易发现。可以通过梯度修剪的方法解决,即如果梯度向量超过阈值,缩放梯度,避免过大
many to many的第二种情况x部分维encoder,y部分为decoder
RNN由于梯度消失的问题,往往不能获取长期的依赖关系(由于梯度消失),GRU可以(因为门的值可能是很小的0.000001)
梯度爆炸 参数nan很容易发现。可以通过梯度修剪的方法解决,即如果梯度向量超过阈值,缩放梯度,避免过大