RNN-bptt简单推导

最新推荐文章于 2024-08-09 13:44:55 发布

kingsam_

最新推荐文章于 2024-08-09 13:44:55 发布

阅读量3.2k

点赞数

分类专栏：机器学习理论学习机器学习文章标签： bptt rnn rnn推导

本文链接：https://blog.csdn.net/qq_22238533/article/details/79131069

版权

本文详细介绍了RNN中BPTT（Back Propagation Through Time）算法的推导过程，阐述了如何将RNN按时间维度展开成多层神经网络，并通过链式法则计算权重的梯度。通过具体的时刻分析，揭示了在误差反向传播过程中权重共享带来的复杂性。最后，总结了BPTT与常规BP算法的相似性和差异性，为读者理解RNN训练提供了帮助。

摘要由CSDN通过智能技术生成

摘要：

在前面的文章里面，RNN训练与BP算法,我们提到了RNN的训练算法。但是回头看的时候在时间的维度上没有做处理，所以整个推导可能存在一点问题。

那么，在这篇文章里面，我们将介绍bptt（Back Propagation Through Time）算法如在训练RNN。

关于bptt

这里首先解释一下所谓的bptt，bptt的思路其实很简单，就是把整个RNN按时间的维度展开成一个“多层的神经网络”。具体来说比如下图：
这里写图片描述

既然RNN已经按时间的维度展开成一个看起来像多层的神经网络，这个时候用普通的bp算法就可以同样的计算，只不过这里比较复杂的是权重共享。比如上图中每一根线就是一个权重，而我们可以看到在RNN由于权重是共享的，所以三条红线的权重是一样的，这在运用链式法则的时候稍微比较复杂。

正文：

首先，和以往一样，我们先做一些定义。
$h_i^t=f(net_{hi}^t)$

$net_{hi}^t=\sum_m{(v_{im}x_m^t)}+\sum_s{(u_{is}h_s^{t-1})}$

$net_{yk}^t=\sum_m{w_{km}h_m^t}$
最后一层经过softmax的转化
$o_k^t=\frac{e^{net_{yk}^t}}{\sum_{k'}{e^{net_{y{k'}}^t}}}$
在这里我们使用交叉熵作为Loss Function
$E_t=-\sum_k{z_k^tlno_k^t}$

我们的任务同样也是求 $\left.\frac{\partial E}{\partial w_{km}}\right.$ 、 $\left.\frac{\partial E}{\partial v_{im}}\right.$ 、 $\left.\frac{\partial E}{\partial u_{im}}\right.$ 。
注意，这里的 $E$ 没有时间的下标。因为在RNN里，这些梯度分别为各个时刻的梯度之和。
即：
$\left.\frac{\partial E}{\partial w_{km}}\right.=\sum_{t=0}^{step}\left.\frac{\partial E_t}{\partial w_{km}}\right.$
$\left.\frac{\partial E}{\partial v_{im}}\right.=\sum_{t=0}^{step}\left.\frac{\partial E_t}{\partial v_{im}}\right.$
$\left.\frac{\partial E}{\partial u_{im}}\right.=\sum_{t=0}^{step}\left.\frac{\partial E_t}{\partial u_{im}}\right.$ 。

所以下面我们推导的是 $\left.\frac{\partial E_t}{\partial w_{km}}\right.$ 、 $\left.\frac{\partial E_t}{\partial v_{im}}\right.$ 、 $\left.\frac{\partial E_t}{\partial u_{im}}\right.$ 。

我们先推导 $\left.\frac{\partial E_t}{\partial w_{km}}\right.$ 。
$\left.\frac{\partial E_t}{\partial w_{km}}\right.=\sum_{k'}{\left.\frac{\partial E_t}{\partial o_{k'}^t}\right.\left.\frac{\partial o_{k'}^t}{\partial net_{yk}^t}\right.\left.\frac{\partial net_{yk}^t}{\partial w_{km}}\right.}=(o_k^t-z_k^t)*h_m^t$ 。（这一部分的推导在前面的文章已经讨论过了）。
在这里，记误差信号：
δ(output,t)k=∂Et∂nettyk=∑k′∂Et∂otk′