目录
1. 普通递推神经网络(Recurrent Neural Network)的前向传播公式
2. 门控递推单元(Gated Recurrent Unit,GRU)的前向传播公式
3. 长短期记忆单元(Long Short-Term Memory,LSTM)的前向传播公式
或
表示矩阵乘法,
表示按元素相乘(学名叫做Hadamard product)。
中的
表示第t步。
表示矩阵有
(激活值的维度)行,
(输入值的维度)列。x表示输入,a表示激活值,c表示隐藏状态,u表示更新(输入)门,o表示输出门,f表示遗忘门。
1. 普通递推神经网络(Recurrent Neural Network)的前向传播公式
下式输出了激活值。

下式把激活值映射到输出的概率空间中。

2. 门控递推单元(Gated Recurrent Unit,GRU)的前向传播公式
重置门(reset gate)
的计算
,
代表第
步。(
)
候选激活值(candidate activation)
的计算

更新门(update gate)
的计算

激活值
的计算

3. 长短期记忆单元(Long Short-Term Memory,LSTM)的前向传播公式
下式是遗忘门,用于忘记上一步的隐藏状态。


这是更新(输入)门,用于决定保留多少输入。


这是初步的隐藏状态,与遗忘门和更新门无关。

这是最终的隐藏状态,经过遗忘门和更新门的调整。

这是输出门,用于决定输出多少隐藏状态。


这是最终的激活值。

4. 普通递推神经网络的反向传播公式
这是激活值。

这是tanh的求导公式。

下面是对各个参数的偏导。





5. GRU的反向传播公式










6. LSTM的反向传播公式















下式中的
取
中的
,
类似。



下式中的
取
中的
,
类似。


该博客详细介绍了递推神经网络(RNN)、门控递推单元(GRU)和长短期记忆单元(LSTM)的前向传播和反向传播公式,包括激活值、隐藏状态、门控机制的计算过程,并提供了反向传播中对参数的偏导数计算。
1380

被折叠的 条评论
为什么被折叠?



