循环神经网络1—RNN

最新推荐文章于 2022-06-15 14:59:28 发布

Rhine_Yu

最新推荐文章于 2022-06-15 14:59:28 发布

阅读量613

点赞数

分类专栏： Deep Learning 文章标签： RNN BPTT DeepLearning

Deep Learning 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

这周在看循环神经网络，发现一个博客，里面的推导过程极其详细，借此记录重点

详细推导

强烈介意手推一遍，虽然可能会花一点时间，但便于理清思路。

语言模型

RNN是在自然语言处理领域中最先被用起来的，比如，RNN可以作为语言模型来建模。

什么是语言模型？

语言模型：给定一个一句话前面的部分，预测接下来最有可能的一个词是什么。

语言模型可以用在语音转文本（STT）上，也可以用在图像到文本的识别中（OCR）。

使用RNN之前，语言模型主要采用N-Gram，即先对句子切词，再在语料库中搜索前n个词进行预测，这样想法没有实用性，因为根本没有用到有用的信息，并且该模型还会占用海量的存储空间。

所以，RNN出现，理论上RNN可以往前看（往后看）任意多个词。

循环神经网络

基本神经网络

点击查看大图

如上图左，一个简单的循环神经网络由一个输入层、一个隐藏层和一个输出层组成。

其中， $x$ 是一个向量，代表输入层的值； $s$ 是一个向量，代表隐藏层的值； $o$ 是一个向量，代表输出层的值。

$U$ 是输入层到隐藏层的权重矩阵， $V$ 是隐藏层到输出层的权重矩阵，权重矩阵 $W$ 是隐藏层上一次的值作为这一次的输入的权重。循环神经网络与普通的全连接神经网络不同的地方也就在于 $W$ 。

如上图右，可表示循环神经网络的计算方式：

\begin{aligned} (1) & o_{t} & = g (V s_{t}) (式 1) \\ (2) & s_{t} & = f (U x_{t} + W s_{t - 1}) (式 2) \end{aligned}

$\begin{align} \mathrm{o}_t&=g(V\mathrm{s}_t)\qquad\qquad\quad(式1)\\ \mathrm{s}_t&=f(U\mathrm{x}_t+W\mathrm{s}_{t-1})\qquad(式2)\\ \end{align}$
其中，式1是输出层的计算公式，输出层是一个全连接层，即每一个节点都与隐藏层的每个节点相连，g代表激活函数，

V V $V$ 是输出层的权重矩阵。

式2是隐藏层的计算公式，它是一个循环层，f是激活函数， $U$ 是输入 $x$ 的权重矩阵， $W$ 是上次值 $s_{t-1}$ 作为这次输入的权重矩阵。

双向循环神经网络

对于语言模型来说，很多时候光看前面的词是不够的，还需要看后面的词。普通的基本循环神经网络对此无法建模，因此，我们需要双向循环神经网络。

点击查看大图

从上图可知，双向循环神经网络的隐藏层要保存两个值，一个 $A$ 参与正向计算，另一个值 $A^{’}$ 参与反向计算。最后的输出值 $y_2$ 取决于 $A_2$ 和 $A^{'}_{2}$ 。仿照式1和试2，双向循环神经网络的计算方法如下：

o t s t s' t = g (V s t + V' s' t) = f (U x t + W s t - 1) = f (U' x t + W' s' t + 1) (3) (4) (5)

$\begin{align} \mathrm{o}_t&=g(V\mathrm{s}_t+V'\mathrm{s}_t')\\ \mathrm{s}_t&=f(U\mathrm{x}_t+W\mathrm{s}_{t-1})\\ \mathrm{s}_t'&=f(U'\mathrm{x}_t+W'\mathrm{s}_{t+1}')\\ \end{align}$
可以看出：正向计算时，隐藏层的值

st s t $s_t$ 与

st−1 s t − 1 $s_{t-1}$ 有关；反向计算时，隐藏层的值

s′t s t ′ $s_{t}^{’}$ 和

s′t−1 s t − 1 ′ $s_{t-1}^{’}$ 有关。正向计算和反向计算 不共享权重，也就是说

U U $U$ 和

U^{^{'}}

$U^{’}$ 、

W W $W$ 和

W^{^{'}}

$W^{’}$ 、

V V $V$ 和

V^{^{'}}

$V^{’}$ 都是不同的权重矩阵。

深度循环神经网络

之前介绍的RNN都是只有一个隐藏层，当堆叠两个以上隐藏层时，就得到了深度循环神经网络

点击查看大图

把第i个隐藏层的值表示为 $s_{t}^{(i)}$ 、 $s_{t}^{’(i)}$ ，则深度循环神经网络的计算方式可以表示为：

o t s (i) t s' (i) t . . . s (1) t s' (1) t = g (V (i) s (i) t + V' (i) s' (i) t) = f (U (i) s (i - 1) t + W (i) s t - 1) = f (U' (i) s' (i - 1) t + W' (i) s' t + 1) = f (U (1) x t + W (1) s t - 1) = f (U' (1) x t + W' (1) s' t + 1) (6) (7) (8) (9) (10) (11)

$\begin{align} \mathrm{o}_t&=g(V^{(i)}\mathrm{s}_t^{(i)}+V'^{(i)}\mathrm{s}_t'^{(i)})\\ \mathrm{s}_t^{(i)}&=f(U^{(i)}\mathrm{s}_t^{(i-1)}+W^{(i)}\mathrm{s}_{t-1})\\ \mathrm{s}_t'^{(i)}&=f(U'^{(i)}\mathrm{s}_t'^{(i-1)}+W'^{(i)}\mathrm{s}_{t+1}')\\ ...\\ \mathrm{s}_t^{(1)}&=f(U^{(1)}\mathrm{x}_t+W^{(1)}\mathrm{s}_{t-1})\\ \mathrm{s}_t'^{(1)}&=f(U'^{(1)}\mathrm{x}_t+W'^{(1)}\mathrm{s}_{t+1}')\\ \end{align}$

循环神经网络的训练

循环神经网络的训练算法：BPTT

BPTT算法是针对循环层的训练算法，基本原理和BP算法一样，包含三个步骤：

前向计算每个神经元的输出值；
反向计算每个神经元的误差项 $δ_{j}$ 值，它是误差函数E对神经元j的加权输入 $net_{j}$ 的偏导数；
计算每个权重的梯度。

最后再用随机梯度下降算法更新权重。

循环层如下图所示：

点击查看大图

1. 前向计算

使用式2对循环层进行前向计算：

s t = f (U x t + W s t - 1)

$\mathrm{s}_t=f(U\mathrm{x}_t+W\mathrm{s}_{t-1})$
上式中，

st s t $s_{t}$ 、

xt x t $x_{t}$ 、

st−1 s t − 1 $s_{t-1}$ 都是向量，U、V是矩阵，向量的下标表示时刻。

2. 误差项的计算

BTPP算法将第 $l$ 层的t时刻的误差项 $δ_{t}^{l}$ 值沿两个方向传播，一个方向是传递到上一层网络，得到 $δ_{t}^{l-1}$ 值，这部分只与U有关；另一方向是沿时间线传递到初始 $t_{1}$ 时刻，得到 $δ_{1}^{l}$ 值，这部分只与W有关。

我们用向量 $net_{t}$ 表示神经元在t时刻的加权输入，因为：

n e t t s t - 1 = U x t + W s t - 1 = f (n e t t - 1) (12) (13)

$\begin{align} \mathrm{net}_t&=U\mathrm{x}_t+W\mathrm{s}_{t-1}\\ \mathrm{s}_{t-1}&=f(\mathrm{net}_{t-1})\\ \end{align}$
因此（详细推导此处略过，详情见链接）：

\partial n e t t \partial n e t t - 1 = \partial n e t t \partial s t - 1 \partial s t - 1 \partial n e t t - 1 = W d i a g [f' (n e t t - 1)] = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ w 11 f' (n e t t - 1 1) w 21 f' (n e t t - 1 1) w n 1 f' (n e t t - 1 1) w 12 f' (n e t t - 1 2) w 22 f' (n e t t - 1 2) . . w n 2 f' (n e t t - 1 2) . . . . . . . . . w 1 n f (n e t t - 1 n) w 2 n f (n e t t - 1 n) w n n f' (n e t t - 1 n) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (14) (15) (16)

$\begin{align} \frac{\partial{\mathrm{net}_t}}{\partial{\mathrm{net}_{t-1}}}&=\frac{\partial{\mathrm{net}_t}}{\partial{\mathrm{s}_{t-1}}}\frac{\partial{\mathrm{s}_{t-1}}}{\partial{\mathrm{net}_{t-1}}}\\ &=Wdiag[f'(\mathrm{net}_{t-1})]\\ &=\begin{bmatrix} w_{11}f'(net_1^{t-1}) & w_{12}f'(net_2^{t-1}) & ... & w_{1n}f(net_n^{t-1})\\ w_{21}f'(net_1^{t-1}) & w_{22} f'(net_2^{t-1}) & ... & w_{2n}f(net_n^{t-1})\\ &.\\&.\\ w_{n1}f'(net_1^{t-1}) & w_{n2} f'(net_2^{t-1}) & ... & w_{nn} f'(net_n^{t-1})\\ \end{bmatrix}\\ \end{align}$
上式描述了将δ沿时间往前传递一个时刻的规律，根据这个规律，可以求得任意时刻k的误差项

δk δ k $δ_{k}$ ：

δ T k = = = = = \partial E \partial n e t k \partial E \partial n e t t \partial n e t t \partial n e t k \partial E \partial n e t t \partial n e t t \partial n e t t - 1 \partial n e t t - 1 \partial n e t t - 2 . . . \partial n e t k + 1 \partial n e t k W d i a g [f' (n e t t - 1)] W d i a g [f' (n e t t - 2)] . . . W d i a g [f' (n e t k)] δ l t δ T t \prod i = k t - 1 W d i a g [f' (n e t i)] (式 3) (17) (18) (19) (20) (21)

$\begin{align} \delta_k^T=&\frac{\partial{E}}{\partial{\mathrm{net}_k}}\\ =&\frac{\partial{E}}{\partial{\mathrm{net}_t}}\frac{\partial{\mathrm{net}_t}}{\partial{\mathrm{net}_k}}\\ =&\frac{\partial{E}}{\partial{\mathrm{net}_t}}\frac{\partial{\mathrm{net}_t}}{\partial{\mathrm{net}_{t-1}}}\frac{\partial{\mathrm{net}_{t-1}}}{\partial{\mathrm{net}_{t-2}}}...\frac{\partial{\mathrm{net}_{k+1}}}{\partial{\mathrm{net}_{k}}}\\ =&Wdiag[f'(\mathrm{net}_{t-1})] Wdiag[f'(\mathrm{net}_{t-2})] ... Wdiag[f'(\mathrm{net}_{k})] \delta_t^l\\ =&\delta_t^T\prod_{i=k}^{t-1}Wdiag[f'(\mathrm{net}_{i})]\qquad(式3) \end{align}$
式3是将误差项沿时间反向传播的算法。

循环层将误差项反向传递到上一层网络，与普通的全连接层完全一样。

(δ l - 1 t) T = = = \partial E \partial n e t l - 1 t \partial E \partial n e t l t \partial n e t l t \partial n e t l - 1 t (δ l t) T U d i a g [f' l - 1 (n e t l - 1 t)] (式 4) (22) (23) (24)

$\begin{align} (\delta_t^{l-1})^T=&\frac{\partial{E}}{\partial{\mathrm{net}_t^{l-1}}}\\ =&\frac{\partial{E}}{\partial{\mathrm{net}_t^l}}\frac{\partial{\mathrm{net}_t^l}}{\partial{\mathrm{net}_t^{l-1}}}\\ =&(\delta_t^l)^TUdiag[f'^{l-1}(\mathrm{net}_t^{l-1})]\qquad(式4) \end{align}$
式4就是将误差项传递到上一层的算法。

3. 权重梯度的计算

首先，我们计算误差函数E对权重矩阵W的梯度 $\frac{\partial{E}}{\partial{W}}$ .

点击查看大图

上图展示了前两步已经计算得到的值，包括每个时刻t循环层的输出值 $s_{t}$ 以及误差项 $δ_{t}$ 。

梯度计算算法：只要知道了任意一个时刻的误差项 $δ_{t}$ ，以及上一个时刻循环层的输出值 $s_{t-1}$ ，就可以按照下面的公式求出权重矩阵在t时刻的梯度 $∇_{Wt}E$ :

\nabla W t E = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ δ t 1 s t - 1 1 δ t 2 s t - 1 1 . . δ t n s t - 1 1 δ t 1 s t - 1 2 δ t 2 s t - 1 2 δ t n s t - 1 2 . . . . . . . . . δ t 1 s t - 1 n δ t 2 s t - 1 n δ t n s t - 1 n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (式 5)

$\nabla_{W_t}E=\begin{bmatrix} \delta_1^ts_1^{t-1} & \delta_1^ts_2^{t-1} & ... & \delta_1^ts_n^{t-1}\\ \delta_2^ts_1^{t-1} & \delta_2^ts_2^{t-1} & ... & \delta_2^ts_n^{t-1}\\ .\\.\\ \delta_n^ts_1^{t-1} & \delta_n^ts_2^{t-1} & ... & \delta_n^ts_n^{t-1}\\ \end{bmatrix}\qquad(式5)$
我们求得了权重矩阵W在t时刻的梯度

∇WtE ∇ W t E $∇_{Wt}E$ ，最终的梯度

∇WE ∇ W E $∇_{W}E$ 是各个时刻的梯度之和（至于为什么是“和”，详细推导见链接）：

\nabla W E = = \sum i = 1 t \nabla W i E ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ δ t 1 s t - 1 1 δ t 2 s t - 1 1 . . δ t n s t - 1 1 δ t 1 s t - 1 2 δ t 2 s t - 1 2 δ t n s t - 1 2 . . . . . . . . . δ t 1 s t - 1 n δ t 2 s t - 1 n δ t n s t - 1 n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ + . . . + ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ δ 11 s 01 δ 12 s 01 . . δ 1 n s 01 δ 11 s 02 δ 12 s 02 δ 1 n s 02 . . . . . . . . . δ 11 s 0 n δ 12 s 0 n δ 1 n s 0 n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (式 6) (25) (26)

$\begin{align} \nabla_WE=&\sum_{i=1}^t\nabla_{W_i}E\\ =&\begin{bmatrix} \delta_1^ts_1^{t-1} & \delta_1^ts_2^{t-1} & ... & \delta_1^ts_n^{t-1}\\ \delta_2^ts_1^{t-1} & \delta_2^ts_2^{t-1} & ... & \delta_2^ts_n^{t-1}\\ .\\.\\ \delta_n^ts_1^{t-1} & \delta_n^ts_2^{t-1} & ... & \delta_n^ts_n^{t-1}\\ \end{bmatrix} +...+ \begin{bmatrix} \delta_1^1s_1^0 & \delta_1^1s_2^0 & ... & \delta_1^1s_n^0\\ \delta_2^1s_1^0 & \delta_2^1s_2^0 & ... & \delta_2^1s_n^0\\ .\\.\\ \delta_n^1s_1^0 & \delta_n^1s_2^0 & ... & \delta_n^1s_n^0\\ \end{bmatrix}\qquad(式6) \end{align}$
式6就是计算循环层权重矩阵W的梯度的公式。

RNN的梯度爆炸和消失问题

不幸的是，前面提到的几种RNNs都不能很好的处理较长的序列。原因是RNN在训练中很容易发生梯度爆炸和梯度消失，这导致训练梯度不能在较长序列中一直传递下去，从而使RNN无法捕捉到长距离的影响。（具体原因见链接）

处理梯度爆炸：设置一个梯度阈值，当梯度超过这个阈值时可以直接截取。

处理梯度消失：

合理的初始化权重值。初始化权重，使每个神经元尽可能不要取极大值或极小值，以躲开梯度消失的区域。
使用ReLU代替Sigmoid和tanh作为激活函数。
使用其他结构的RNNs，如长短时记忆网络（LTSM）和Gated Recurrent Unit（GRU）。

Rhine_Yu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
循环神经网络1—RNN

这周在看循环神经网络，发现一个博客，里面的推导过程极其详细，借此记录重点详细推导强烈介意手推一遍，虽然可能会花一点时间，但便于理清思路。语言模型RNN是在自然语言处理领域中最先被用起来的，比如，RNN可以作为语言模型来建模。什么是语言模型？语言模型：给定一个一句话前面的部分，预测接下来最有可能的一个词是什么。语言模型可以用在语音转文本（STT）上，也可以用在图像到文...
复制链接

扫一扫