RNN学习笔记(一)-简介及BPTT RTRL及Hybrid（FP/BPTT）算法

最新推荐文章于 2022-01-04 15:15:30 发布

rtygbwwwerr

最新推荐文章于 2022-01-04 15:15:30 发布

阅读量1.5w

点赞数 7

分类专栏：机器学习文章标签：神经网络 RNN BPTT RTRL 算法

本文链接：https://blog.csdn.net/rtygbwwwerr/article/details/50367015

版权

本文介绍了RNN的基础结构，详细讲解了BPTT（Back Propagation Through Time）和RTRL（Real-Time Recurrent Learning）两种在线学习算法的原理，包括Real-Time BPTT与Epochwise BPTT的区别，以及Hybrid(FP/BPTT)算法的结合方式。通过这些算法，理解RNN如何处理序列数据并进行参数更新。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RNN学习笔记(一)-简介及BPTT RTRL及Hybrid(FP/BPTT)算法

本文假设读者已经熟悉了常规的神经网络，并且了解了BP算法，如果还不了解的，参见UFIDL的教程。
- 1.RNN结构
- 2.符号定义
- 3.网络unrolled及公式推导
- 4.BPTT
- 5.RTRL
- 6.Hybrid(FP/BPTT)
- 7.参考文献

1.RNN结构

如下图1是一个最简单的RNN：

其中集合 $I$ 为 $m$ 个外部输入节点，左下角的 $U$ 为前一时刻的隐层输出节点，U中的节点数为 $n$ ，并假定U中所有节点的输出都参与到下一时刻的输入。

2.符号定义

定义：
$x_i(t)$ : $t$ 时刻第 $i$ 个输入节点的输出值，且 $i∈I∪U$
$s_k(t)$ : $t$ 时刻第 $k$ 个隐层节点的输出值，且 $k∈U$
$y_k(t)$ : $t$ 时刻第 $k$ 个输出层节点的输出值，且 $k∈U$
$d_k(t)$ : $t$ 时刻隐层第 $k$ 个节点的期望输出（即训练数据）
$w_{li}$ :第 $i$ 个输入到第 $l$ 个隐层节点的权重，其中 $i∈I，l∈U$
$w_{lk}$ :第 $k$ 个输入到第 $l$ 个隐层节点的权重，其中 $k，l∈U$
$\tau$ :假定网络的起始时刻为 $t_0$ ，当前时刻为 $t$ ， $t'∈[t_0,t)$ , $\tau∈(t',t]$
$y_k^*(\tau)$ : $\tau$ 时刻第 $k$ 个输出节点的输出值，且 $k∈U,且\tau∈(t_0,t]$ ,对于所有的 $\tau$ 而言，其实有 $y_k(\tau)=y_k^*(\tau)$ ，这里之所以引入新符号，是为了避免求导运算时混淆1。

再来是一组等式定义：
$s_k(\tau+1)=wx(\tau)$
$e_k(t)=d_k(t)-y_k(t)$
$J(\tau)=\sum\limits_{k∈U}e_k(t)$
$J^{total}(t',t)=\sum\limits_{\tau=t'+1}^{t}J(\tau),t'∈[t_0,t)$
$\epsilon_k(\tau;F)=\frac{\partial F}{\partial y_k(\tau)}$
$e_k(\tau;F)=\frac{\partial F}{\partial y^*_k(\tau)}$
$\delta_k(\tau;F)=\frac{\partial F}{\partial s_k(\tau)}$
$p^k_{ij}(\tau)=\frac {\partial y_k(\tau)}{\partial w_{ij}}$
因为假定 $F$ 只与 $y_k(\tau),\tau ∈(t',t]$ 显式相关，所以，当 $\tau≤t'$ 时， $e_k(\tau;F)=0$ 。
由于 $F$ 是任意与 $y_k(t)$ 相关的函数，实际应用中，可以取
$F=J(\tau)；F=J^{total}(t',t)$ 或其它函数。
因为初始状态的输出 $y_k(t_0)$ 为预设值，与 $w$ 之间不存在函数关系，所以当 $\tau=t_0$ 时， $p^k_{ij}(t_0)=0$ 。

3.网络unrolled及公式推导

将网络按时间展开：
这里写图片描述
根据上图，下面两个式子成立：
$s_k(t+1)=\sum\limits_{l∈U}w_{kl}y_l(t)+\sum\limits_{l∈I}w_{kl}x^{net}_l(t)=\sum\limits_{l∈U∪I}w_{kl}x_l(t)......(2)$
$y_k(t+1)=f_k(s_k(t+1))......(3)$

显然， $y^*_k(\tau+1),y^*_k(\tau+2),...,y^*_k(t)$ 可以表示成 $s(\tau+1)$ 的函数，因此，
$F=\mathbb {F}(y^*(t'),y^*(t'+1),...,y_k(\tau),s(\tau+1))=\mathbb {F}$
下面对公式进行进一步的推导：
$\epsilon_k(\tau;F)=\frac{\partial F}{\partial y_k(\tau)}$
$=\frac{\partial \mathbb {F}(y^*(t'),y^*(t'+1),...,y_k(\tau),s(\tau+1))}{\partial y_k(\tau)}$
由复合函数求导法则，上式可进一步变为：
∂F∂y(t′)∂y(t′)∂yk(τ)+∂F∂y(t′+1)∂y(t′+1)∂yk(τ)+...+∂F∂y∗(τ)∂y∗(τ)∂yk(τ)+∂F∂s(τ+1)∂s(τ+1)∂yk(τ

最低0.47元/天解锁文章