有些问题想请教下各位老师。
1 对于LSTM前向传播的输入,假设我以5个不同的输入为一组,这5个输入在进入LSTM时的时候,这个期间LSTM的权重矩阵和偏置不改变,等5个输出ht得到结果以后,再进行反向传播,这个理解对吗。
2 对于反向传播,我看了很多网上的博主,以L(E)到ht的偏导数有所区别,有的是包含本身这条路径的,有的只有从t+1时刻传来的路径,我自己的理解是两条总路径都要有,不知道对不对。(以下是我自己写的)
3 其次,LSTM如果以5个时间步长之后进行反向传播,这个梯度应该如何去算,按道理说是不是要t=5的到t=1,到t=2依次,这样好麻烦,而且计算量大,还是按照我上述的理解,对于t时刻只考虑t+1时刻传过来的梯度。
4 假设是5个时间步长的话,如果我上述理解的正确,以求Wxf的梯度为例,是不是要把(5到4时刻的......2到1时刻的)这些梯度都加起来,才是这个权重的梯度。