本人认为:
lstm只能缓解梯度消失,并不能完全解决;因为最新的状态单元可以是过去的一个线性组合,过去的信息传递到现在主要是由每个时间步的遗忘门参数连乘决定的;
而rnn是过去时间序列的一个连乘;由参数w与tanh激活函数的导数值连乘而得到的;
本人认为:
lstm只能缓解梯度消失,并不能完全解决;因为最新的状态单元可以是过去的一个线性组合,过去的信息传递到现在主要是由每个时间步的遗忘门参数连乘决定的;
而rnn是过去时间序列的一个连乘;由参数w与tanh激活函数的导数值连乘而得到的;