RNN学习笔记

最新推荐文章于 2024-05-07 12:05:32 发布

cyh_csdn

最新推荐文章于 2024-05-07 12:05:32 发布

阅读量405

点赞数

分类专栏：笔记文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/cyh_csdn/article/details/104512580

版权

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

笔者最近对RNN网络进行知识补漏，现将最近了解到的内容整理如下，如有理解不准确的部分，欢迎指正。

说起RNN的机制，一般RNN的隐藏单元更新函数为：

$\mathbf{h}_{t} = \sigma \left ( \mathbf{W} \mathbf{x}_{t} + \mathbf{Uh}_{t-1} + \mathbf{b} \right )$
其中 $\mathbf{W}, \mathbf{U}$ 分别为当前时刻的输入数据 $\mathbf{x}_{t}$ 和上一时刻隐藏单元信息 $\mathbf{h}_{t-1}$ 的可学习权重系数。不同于一般CNN网络的神经元更新 $\mathbf{h} = \sigma \left ( \mathbf{W} \mathbf{x}+ \mathbf{b} \right )$ ，当前隐藏单元信息只与当前输入有关，而在RNN的更新过程中，当前时刻之前的各个时刻信息被包含在上一时刻的隐藏单元信息中，一同作用当前时刻的隐藏单元更新过程，当前时刻的隐藏单元由当前时刻输入数据和上一时刻隐藏单元的信息共同决定。

一般的RNN结构（其它形式的结构应用见文末补充内容1）每层RNN卷积层都可以看成是在时间上展开的一个卷积序列，如图：

值得注意的是，RNN的上述展开形式，每个隐藏单元h的脚标表示的是不同时刻，展开来写：

$\mathbf{h}_{1} = \sigma \left ( \mathbf{W} \mathbf{x}_{1} + \mathbf{Uh}_{0} + \mathbf{b} \right )$

$\mathbf{h}_{2} = \sigma \left ( \mathbf{W} \mathbf{x}_{2} + \mathbf{Uh}_{1} + \mathbf{b} \right )$ (1)

$\mathbf{h}_{3} = \sigma \left ( \mathbf{W} \mathbf{x}_{3} + \mathbf{Uh}_{2} + \mathbf{b} \right )$

这里的 $\mathbf{W}, \mathbf{U}$ 都是同一个参数，即参数共享。前向过程比较好理解，现在我们来看RNN采用的反向传播，是随时间反向传播back-propagation through time(BPTT)，其实本质还是BP算法，只不过RNN处理时间序列数据，所以要基于时间反向传播，故叫随时间反向传播。此处以 $\mathbf{y}_3$ ，来看反向传播过程，首先明确待学习的参数为 $\mathbf{W}, \mathbf{U},\mathbf{b}$ ，因此以 $\mathbf{W}$ 为例，求 $\mathbf{y}_3$ 对 $\mathbf{W}$ 的偏导，应用链式法则得到：

$\frac{\partial \mathbf{y}_3}{\partial \mathbf{W}} =\frac{\partial \mathbf{y}_3}{\partial \mathbf{h}_3}\frac{\partial \mathbf{h}_3}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_3}{\partial \mathbf{h}_3}\frac{\partial \mathbf{h}_3}{\partial \mathbf{h}_2} \frac{\partial \mathbf{h}_2}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_3}{\partial \mathbf{h}_3}\frac{\partial \mathbf{h}_3}{\partial \mathbf{h}_2}\frac{\partial \mathbf{h}_2}{\partial \mathbf{h}_1} \frac{\partial \mathbf{h}_1}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_3}{\partial \mathbf{h}_3}\frac{\partial \mathbf{h}_3}{\partial \mathbf{h}_2}\frac{\partial \mathbf{h}_2}{\partial \mathbf{h}_1} \frac{\partial \mathbf{h}_1}{\partial \mathbf{h}_0}\frac{\partial \mathbf{h}_0}{\partial \mathbf{W}}$

$\frac{\partial \mathbf{y}_2}{\partial \mathbf{W}} =\frac{\partial \mathbf{y}_2}{\partial \mathbf{h}_2}\frac{\partial \mathbf{h}_2}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_2}{\partial \mathbf{h}_2}\frac{\partial \mathbf{h}_2}{\partial \mathbf{h}_1} \frac{\partial \mathbf{h}_1}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_2}{\partial \mathbf{h}_2}\frac{\partial \mathbf{h}_2}{\partial \mathbf{h}_1}\frac{\partial \mathbf{h}_1}{\partial \mathbf{h}_0} \frac{\partial \mathbf{h}_0}{\partial \mathbf{W}}$

$\frac{\partial \mathbf{y}_1}{\partial \mathbf{W}} =\frac{\partial \mathbf{y}_1}{\partial \mathbf{h}_1}\frac{\partial \mathbf{h}_1}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_1}{\partial \mathbf{h}_1}\frac{\partial \mathbf{h}_1}{\partial \mathbf{h}_0} \frac{\partial \mathbf{h}_0}{\partial \mathbf{W}}$

根据规律可得，上述各公式可以统一为

$\frac{\partial \mathbf{y}_t}{\partial \mathbf{W}} = \sum_{k=0}^{t}\frac{\partial \mathbf{y}_t}{\partial \mathbf{h}_t}\prod_{j=k+1}^{t}\frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}} \frac{\partial \mathbf{h}_k}{\partial \mathbf{W}}$

可以观察到，在某个时刻对 $\mathbf{W}$ 的偏导数，需要追溯这个时刻之前所有时刻的信息，这还仅仅是一个时刻的偏导数，上面说过损失也是会累加的，那么整个损失函数对W和U的偏导数将会非常繁琐。整体的偏导公式就是将其按时刻将之前的所有时刻再加起来：

$\frac{\partial \mathbf{Y}_3}{\partial \mathbf{W}} =\frac{\partial \mathbf{y}_3}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_2}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_1}{\partial \mathbf{W}} = \sum_{t=1}^{3}\frac{\partial \mathbf{y}_t}{\partial \mathbf{W}}$

从上述 $\mathbf{h}_{1},\mathbf{h}_{2},\mathbf{h}_{3}$ 的表达公式可以看到 $\frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}}$ 其实就是含有激活函数 $\sigma$ 的乘子，因此在 $\frac{\partial \mathbf{y}_t}{\partial \mathbf{W}} = \sum_{k=0}^{t}\frac{\partial \mathbf{y}_t}{\partial \mathbf{h}_t}\prod_{j=k+1}^{t}\frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}} \frac{\partial \mathbf{h}_k}{\partial \mathbf{W}}$ 中 $\frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}}$ 的累乘等价于会导致激活函数导数的累乘，而RNN使用的sigmod和tanh激活函数都属于饱和激活函数（详情解释见文末补充内容2），sigmoid函数的导数范围是(0,0.25]，tanh函数的导数范围是(0,1]，他们的导数最大都不大于1。这就会导致一个问题，在上面式子累乘的过程中，如果取sigmoid函数作为激活函数的话，那么必然是一堆小数在做乘法，结果就是越乘越小。随着时间序列的不断深入，小数的累乘就会导致梯度越来越小直到接近于0，这就是“梯度消失“现象。ReLU激活函数的左侧导数为0，右侧导数恒为1，这就避免了“梯度消失“的发生。但恒为1的导数容易导致“梯度爆炸“。

补充内容1. 其它形式的RNN结构应用

RNN结构，在实际中这一种结构也可以有不同的应用形式，例如我们输入为一串文字，输出为分类类别，那么输出就不需要一个序列，只需要单个输出，但有时候还需要单输入但是输出为序列的情况。两种情况如图：

补充内容2. 饱和和非饱和的激活函数

当有激活函数 $z(x)$ ,其导数为 ${z}'(x)$ 时：

饱和激活函数（saturated activation function）：

当 $\lim_{x \to +\infty } {z}'(x) = 0$ ,称其为右饱和激活函数；
当 $\lim_{x \to -\infty } {z}'(x) = 0$ ，称其为左饱和激活函数；
当 $\lim_{x \to \infty } {z}'(x) = 0$ ，称其为饱和激活函数。

常见的饱和激活函数sigmod, tanh

非饱和激活函数（non-saturated activation function）：

不满足上述条件的称为不饱和激活函数，常见的饱和激活函数Relu

参考：

https://blog.csdn.net/zhaojc1995/article/details/80572098

cyh_csdn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RNN学习笔记

笔者之前的工作多集中在CNN，GCN部分，最近对RNN网络进行知识补漏，现将最近在读的论文笔记整理如下还有部分自己对于RNN的理解，如有不正确或理解不准确的部分，欢迎指正。RNN网络结构的时序建模能力突出，得益于它的网络结构能将时间上的信息进行完整的整合，N*T*C的数据，不同于CNN网络是将N作为每次训练的单元，RNN是将T作为一个训练单元，同一组训练参数C,依次对t：0~T进行优化训练，得...
复制链接

扫一扫