目录
1. 普通递推神经网络(Recurrent Neural Network)的前向传播公式
2. 门控递推单元(Gated Recurrent Unit,GRU)的前向传播公式
3. 长短期记忆单元(Long Short-Term Memory,LSTM)的前向传播公式
或
表示矩阵乘法,
表示按元素相乘(学名叫做Hadamard product)。
中的
表示第t步。
表示矩阵有
(激活值的维度)行,
(输入值的维度)列。x表示输入,a表示激活值,c表示隐藏状态,u表示更新(输入)门,o表示输出门,f表示遗忘门。
1. 普通递推神经网络(Recurrent Neural Network)的前向传播公式
下式输出了激活值。
下式把激活值映射到输出的概率空间中。
2. 门控递推单元(Gated Recurrent Unit,GRU)的前向传播公式
重置门(reset gate)的计算
,
代表第
步。(
)
候选激活值(candidate activation)的计算
更新门(update gate)的计算
激活值的计算
3. 长短期记忆单元(Long Short-Term Memory,LSTM)的前向传播公式
下式是遗忘门,用于忘记上一步的隐藏状态。
这是更新(输入)门,用于决定保留多少输入。
这是初步的隐藏状态,与遗忘门和更新门无关。
这是最终的隐藏状态,经过遗忘门和更新门的调整。
这是输出门,用于决定输出多少隐藏状态。
这是最终的激活值。
4. 普通递推神经网络的反向传播公式
这是激活值。
这是tanh的求导公式。
下面是对各个参数的偏导。
5. GRU的反向传播公式
6. LSTM的反向传播公式
下式中的取
中的
,
类似。
下式中的取
中的
,
类似。