RNN 训练算法 —— 前篇

最新推荐文章于 2024-08-05 11:15:19 发布

颹蕭蕭

最新推荐文章于 2024-08-05 11:15:19 发布

阅读量1.1k

点赞数 1

分类专栏：时间序列 # 机器学习文章标签：循环神经网络梯度下降损失函数雅可比矩阵反向传播

我们不生产知识，我们只是互联网的搬运工

本文链接：https://blog.csdn.net/itnerd/article/details/109245095

版权

机器学习同时被 2 个专栏收录

136 篇文章 17 订阅

订阅专栏

时间序列

89 篇文章 57 订阅

订阅专栏

在这里插入图片描述

文章目录

问题描述
符号约定
主要推导
参考文献

问题描述

考虑模型循环网络模型：
$\tag1{}$
其中 $\in R^N$ 表示网络节点状态， $W\in R^{N\times N}$ 表示网络结点之间相互连接的权重，网络的输出节点为 $\{x_i(k)| i\in O\}$ ， $O$ 为所有输出（或称“观测”）单元的下标集合

在这里插入图片描述
训练的目标是为了减少观测状态和预期值之间误差，即最小化损失函数：
$\frac{1}{2}\sum_{k=1}^K \sum_{i\in O} [x_i(k) - d_i(k)]^2 \tag{2}$
其中 $d_i(k)$ 表示 $k$ 时刻第 $i$ 个节点的预期值

采用梯度下降法更新 $W$ :
$W_+ = W - \eta \frac{dE}{dW}$

符号约定

$\equiv \begin{bmatrix} \text{-----} w_1^T \text{-----} \\ \vdots \\ \text{-----} w_N^T \text{-----} \end{bmatrix}_{N\times N}$
将矩阵 $W$ 拉成列向量，记为 $w$
$[w_1^T, \cdots, w_N^T]^T \in R^{N^2}$
把所有时间的状态拼成列向量，记为 $x$
$[x^T(1), \cdots, x^T(K)]^T \in R^{NK}$
将RNN 的训练视为约束优化问题，(1)式转化成约束条件:
$\equiv f[Wx(k-1)] - x(k) =0, \quad k=1,\ldots ,K \tag{3}$
记
$[g^T(1), \ldots, g^T(K)]^T \in R^{NK}$

主要推导

由于 $x$ 和 $w$ 之间满足约束条件(3)，故 $x$ 可视为 $w$ 的函数，即 $x (w)$

因此 $\to E(x(w))$ ， $\to g(x(w),w)$

由 $g\equiv 0$ 得
$\frac{dg(x(w),w)}{dw} = \frac{\partial g(x(w),w)}{\partial x}\frac{\partial x(w)}{\partial w} + \frac{\partial g(x(w),w)}{\partial w} \tag{4}$
故
$\begin{aligned} \frac{dE(x(w))}{dw} &= \frac{\partial E(x(w))}{\partial x}\frac{\partial x(w)}{\partial w} \\\\ &= -\frac{\partial E(x(w))}{\partial x}\left(\frac{\partial g(x(w),w)}{\partial x}\right)^{-1} \frac{\partial g(x(w),w)}{\partial w} \end{aligned}$
简记为
$\frac{dE}{dw} = \frac{\partial E}{\partial x}\left(\frac{\partial g}{\partial x}\right)^{-1} \frac{\partial g}{\partial w} \tag{5}$
大部分关于循环神经网络的梯度下降法，都是围绕（5）式展开

首先得清楚各项的维度：
$\begin{aligned} E &\in R \\ g &\in R^{NK}\\ x &\in R^{NK}\\ w &\in R^{N^2}\\ \frac{\partial E}{\partial x} &\in R^{1\times NK} \\ \frac{\partial g}{\partial x} &\in R^{NK\times NK} \\ \frac{\partial g}{\partial w} &\in R^{NK \times N^2} \end{aligned}$

然后再看怎么求：
1.
$\begin{aligned} \frac{\partial E}{\partial x} &= [e(1), \ldots, e(K)] \\\\ e_i(k)&= \begin{cases} x_i(k) - d_i(k), &\text{if } i\in O, \\ 0, &\text{otherwise. } \end{cases} k \in 1,\ldots,K. \end{aligned}$
2.
$\frac{\partial g}{\partial x} = \begin{bmatrix} \frac{\partial g(1)}{\partial x}\\ \vdots \\ \frac{\partial g(K)}{\partial x} \end{bmatrix} = \begin{bmatrix} \frac{\partial g(1)}{\partial x(1)} & \ldots & \frac{\partial g(1)}{\partial x(K)}\\ \vdots & \ddots & \vdots\\ \frac{\partial g(K)}{\partial x(1)} & \ldots & \frac{\partial g(K)}{\partial x(K)} \end{bmatrix}$
由(3)式可知：
$\frac{\partial g(i)}{\partial x(j)} = \begin{cases} -I, &\text{if } i=j, \\ \frac{\partial f[Wx(j)]}{\partial x(j)} ,&\text{if i=j+1}\\ 0, &\text{otherwise. } \end{cases}$
而其中
$\begin{aligned} \frac{\partial f[Wx(j)]}{\partial x(j)} & = \begin{bmatrix} \frac{\partial f(w_1^Tx(j))}{\partial x_1(j)} & \ldots & \frac{\partial f(w_1^Tx(j))}{\partial x_N(j)}\\ \vdots & \ddots & \vdots\\ \frac{\partial f(w_N^Tx(j))}{\partial x_1(j)}& \ldots & \frac{\partial f(w_N^Tx(j))}{\partial x_N(j)} \end{bmatrix}\\\\ & = \begin{bmatrix} f'(w_1^Tx(j))w_{11} & \ldots & f'(w_1^Tx(j))w_{1N}\\ \vdots & \ddots & \vdots\\ f'(w_N^Tx(j))w_{N1} & \ldots & f'(w_N^Tx(j))w_{NN} \end{bmatrix}\\\\ &= \begin{bmatrix} f'(w_1^Tx(j)) & &0\\ & \ddots & \\ 0& & f'(w_N^Tx(j)) \end{bmatrix}W \\\\ &\triangleq D(j)W \end{aligned}$
综上所述
$\frac{\partial g}{\partial x} = \begin{bmatrix} -I & 0& 0 &\ldots & 0\\ D(1)W & -I & 0 &\ldots & 0 \\ 0 & D(2)W & -I & \ldots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & D(K-1)W& -I \end{bmatrix}_{NK\times NK}$

$\frac{\partial g}{\partial w} = \begin{bmatrix} \frac{\partial g(1)}{\partial w}\\ \vdots \\ \frac{\partial g(K)}{\partial w} \end{bmatrix}= \begin{bmatrix} \frac{\partial f[Wx(0)]}{\partial w}\\ \vdots \\ \frac{\partial f[Wx(K-1)}{\partial w} \end{bmatrix}$
而其中
$\begin{aligned} &\frac{\partial f[Wx(k)]}{\partial w} \\ &= \begin{bmatrix} \frac{\partial f[w_1^Tx(k)]}{\partial w}\\ \vdots \\ \frac{\partial f[w_N^Tx(k)]}{\partial w} \end{bmatrix}_{N\times N^2} \\\\ &= \begin{bmatrix} f'[w_1^Tx(k)]x_{1}(k) & \ldots & f'[w_1^Tx(k)]x_{N}(k) & 0 &\ldots \\ 0 & \ldots & 0 & f'[w_2^Tx(k)]x_{1}(k) & \ldots & f'[w_2^Tx(k)]x_{N}(k) & 0& \ldots\\ \vdots \end{bmatrix} \\\\ &= \begin{bmatrix} f'[w_1^Tx(k)] &&& \\ & f'[w_2^Tx(k)] \\ && \ddots & \\ &&& f'[w_N^Tx(k)] \end{bmatrix}_{N\times N} \begin{bmatrix} x^T(k) &&& \\ & x^T(k)&& \\ && \ddots & \\ &&& x^T(k) \end{bmatrix}_{N\times N^2} \\\\ &\triangleq D(k) X(k) \end{aligned}$
其中
$\triangleq\begin{bmatrix} x^T(k) &&& \\ & x^T(k)&& \\ && \ddots & \\ &&& x^T(k) \end{bmatrix}_{N\times N^2}$
故
$\frac{\partial g}{\partial w} = \begin{bmatrix} D(0)X(0)\\ D(1)X(1) \\ \vdots \\ D(K-1)X(K-1) \end{bmatrix}$