随时间反向传播算法(BPTT)笔记

会飞的鱼chelmx

已于 2022-02-05 00:29:57 修改

阅读量2.7k

点赞数 2

分类专栏：深度学习文章标签：算法深度学习 rnn 人工智能神经网络

于 2022-02-05 00:04:08 首次发布

本文链接：https://blog.csdn.net/m0_37142194/article/details/122787161

版权

反向传播 BPTT 循环神经网络梯度计算参数更新

关键词由CSDN通过智能技术生成

深度学习专栏收录该内容

13 篇文章

订阅专栏

随时间反向传播算法(BPTT)笔记

1.反向传播算法(BP)

以表达式 $f(w,x)=\frac{1}{1+e^{-(w_0x_0+w_1x_1+w_2)}}$ 为例，其涉及到的运算操作及导数公式如下：

$\begin{aligned}&f(x)=\frac{1}{x}&\rightarrow&\frac{df}{dx}=-\frac{1}{x^2}\\&f_c(x)=c+x&\rightarrow&\frac{df}{dx}=1\\&f(x)=e^x&\rightarrow&\frac{df}{dx}=e^x\\&f_a(x)=ax&\rightarrow&\frac{df}{dx}=a\end{aligned}\tag{1}$
表达式 $f (w, x)$ 反向传播过程如下图所示：

反向传播过程

其中绿色数值表示表达式 $f (w, x)$ 正向传播结果，红色数值表示梯度反向传播结果。对于单输入节点（如常数加法或指数运算等）梯度反向传播计算公式如下：

$g_k=g_{k+1}\cdot\frac{df_k}{dx}|_{x=v_k}\tag{2}$
其中 $g_k$ 表示节点前梯度， $g_{k+1}$ 表示节点后梯度， $f_k$ 表示节点函数， $v_k$ 表示节点输入。对于加法节点梯度反向传播后各链路数值不变。对于乘法节点梯度反向传播计算公式如下：

$g_k=g_{k+1}\cdot a\tag{3}$
其中 $a$ 表示节点另一条链路的输入。

2.随时间反向传播(BPTT)

2.1 RNN网络结构

RNN结构

经典RNN结构如上图所示，其正向传播公式如下：

$\begin{aligned}s_t&=Uh_{t-1}+Wx_t\\h_t&=\operatorname{tanh}(s_t)\\z_t&=Vh_t\\\hat{y}_t&=\operatorname{softmax}(z_t)\\E_t&=-y_t^T\log(\hat{y}_t)\\E&=\sum_{t=1}^{T}E_t\end{aligned} \tag{4}$

2.2 反向传播

2.2.1 计算 $\frac{\partial E_t}{\partial V}$

$\begin{aligned}\frac{\partial E_t}{\partial V_{ij}}&=\frac{\partial z_t}{\partial V_{ij}}\frac{\partial E_t}{\partial z_t}\\&=\operatorname{tr}[(\frac{\partial E_t}{\partial z_t})^T\cdot\frac{\partial z_t}{\partial V_{ij}}]\\&=\operatorname{tr}[(\hat{y}_t-y_t)^T\cdot\begin{bmatrix}0\\\vdots\\\frac{\partial z_t^{(i)}}{\partial V_{ij}}\\\vdots\\0\end{bmatrix}]\\&=(\hat{y}_t-y_t)^{(i)}h_t^{(j)}\end{aligned}\tag{5}$

对矩阵 $V$ 而言，其求导结果如下：

$\frac{\partial E_t}{\partial V}=(\hat{y}_t-y_t)\bigotimes h_t \tag{6}$
其中 $\bigotimes$ 表示向量外积。

2.2.2 计算 $\frac{\partial E_t}{\partial U}$

$\frac{\partial E_t}{\partial U_{ij}}=\sum_{k=0}^t\frac{\partial s_k}{\partial U_{ij}}\frac{\partial E_t}{\partial s_k}=\sum_{k=0}^{t}\operatorname{tr}[(\frac{\partial E_t}{\partial s_k})^T\frac{\partial s_k}{\partial U_{ij}}]=\sum_{k=0}^{t}\operatorname{tr}[(\delta_k)^T\frac{\partial s_k}{\partial U_{ij}}]=\sum_{k=0}^t\delta_k^{(i)}h_{k-1}^{(j)}\tag{7}$

对 $\delta_k$ 应用链式法则：

$\delta_k=\frac{\partial h_k}{\partial s_k}\frac{\partial s_{k+1}}{\partial h_k}\frac{\partial E_t}{\partial s_{k+1}}=\operatorname{diag}(1-h_kh_k)U^T\delta_{k+1}=(U^T\delta_{k+1})(1-h_kh_k)\tag{8}$
对矩阵 $U$ 而言，其求导结果如下：

$\frac{\partial E_t}{\partial U}=\sum_{k=0}^{t}\delta_k\bigotimes h_{k-1}\tag{9}$

2.2.3 计算 $\frac{\partial E_t}{\partial W}$

按上述思路，对矩阵 $W$ 而言，其求导结果如下：

$\frac{\partial E_t}{\partial W}=\sum_{k=0}^{t}\delta_k\bigotimes x_k\tag{10}$

2.2.4 参数更新

$V:=V-\lambda\sum_{t=0}^T(\hat{y}_t-y_t)\bigotimes h_t\\U:=U-\lambda\sum_{t=0}^T\sum_{k=0}^t\delta_k\bigotimes h_{k-1}\\W:=W-\lambda\sum_{t=0}^T\sum_{k=0}^t\delta_k\bigotimes x_k\tag{11}$

2.3 长期依赖问题

重新考查梯度 $\frac{\partial E_t}{\partial W}$ ：

$\frac{\partial E_t}{\partial W}=\sum_{k=0}^{t}\frac{\partial E_t}{\partial s_t}(\prod_{j=k+1}^t\frac{\partial s_j}{\partial s_{j-1}})\frac{\partial s_k}{\partial W}\tag{12}$
由于 $\operatorname{tanh}$ 导数取值范围为(0,1]，因此Jacobian矩阵 $\frac{\partial s_j}{\partial s_{j-1}}$ 上限为1。Jacobian矩阵多次连乘后，矩阵上限呈指数下降，最终几乎完全消失，这样就导致了远离 $T$ 时刻的梯度为0，这些时刻的状态对学习过程没有帮助，因此RNN结构无法解决长期依赖问题。