笔记(总结)-循环神经网络

最新推荐文章于 2020-12-01 02:16:09 发布

ZSYGOOOD

最新推荐文章于 2020-12-01 02:16:09 发布

阅读量702

点赞数 1

分类专栏：科研|算法|论文机器学习相关 MasterWork-UCAS 笔记长篇文章标签：循环神经网络 RNN LSTM GRU 深度学习

本文链接：https://blog.csdn.net/BitCs_zt/article/details/80998022

版权

MasterWork-UCAS 同时被 3 个专栏收录

67 篇文章 1 订阅

订阅专栏

科研|算法|论文

59 篇文章 0 订阅

订阅专栏

笔记

53 篇文章 0 订阅

订阅专栏

起源

全连接神经网络能够很好地拟合复杂的样本特征，卷积神经网络能很好地建模局部与全局特征的关系。但它们都只能处理定长的输入、输出，而自然语言的处理对象一般是变长的语句，句子中各元素出现的顺序先后暗含着时序关系，循环神经网络（Recurrent Neural Network，下称RNN）能够较好地处理这种关系。

基本结构

RNN的基本思想是：将处理对象在时序上分解为具有相同结构的单元，单元间有着时序关联，即本单元接收上一时序对应单元的输出，并把计算结果输出到下一时序对应的单元。网络结构由这样一系列的单元构成，能够在时序上进行展开。
这里写图片描述
可以看到每一时刻，隐层不仅接收输入，还接收了上一时刻隐层的输出，综合计算得到该时刻的隐层输出。公式化过程如下：

h t = {0, t = 0 f (x t, h t - 1), o t h e r w i s e

$h_t=\begin{cases} 0, \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ t=0 \\ f(x_t,h_{t-1}), \ \ \ \ otherwise \end{cases}$

给出框架图和具体化公式如下：
这里写图片描述

h t = f (W x t + U h t - 1 + b) y t = s o f t m a x (V h t)

$h_t=f(Wx_t+Uh_{t-1}+b) \\ y_t=softmax(Vh_t)$

RNN每个时刻都有输入、输出。由公式可以看到，每个时刻的输入（初始时刻必须有输入）、输出其实也是可以去除的，这样就得到了以RNN为基础的不同类型的网络架构：
这里写图片描述
其中one to one架构就退化为了普通的前馈神经网络架构。而其它不同的变种可用于不同的时间序列相关场景，比如对齐的many to many可以用来做序列标注，针对当前时刻的词进行标注；错开的many to many适合做机器翻译，当源语句全部输入网络后，才开始逐步翻译过程。

RNN的训练

由于RNN涉及时间序列的运算，我们使用BPTT（Back Propagation Through Time）进行参数更新，即梯度需要沿着时间序列回流到最初的时间点。
这里写图片描述

假设我们采用对齐的many to many架构，每个时刻都有一个监督值 $t_t$ ，损失为 $J_t$ ，定义损失函数如下：

J t = - t t l o g y t J = \sum t = 1 T J t = - \sum t = 1 T t t l o g y t

$J_t=-t_tlogy_t \\ J=\sum_{t=1}^TJ_t=-\sum_{t=1}^Tt_tlogy_t$

其中 $y_t$ 定义如上，则有 $J$ 关于 $V$ 的梯度为：

\partial J \partial V = \sum t = 1 T \partial J t \partial V \partial J t \partial V = \partial J t \partial y t \partial y t \partial z t \partial z t \partial h t, y t = s o f t m a x (z t), z t = V h t

$\frac{\partial J}{\partial V}=\sum_{t=1}^T\frac{\partial J_t}{\partial V} \\ \frac{\partial J_t}{\partial V}=\frac{\partial J_t}{\partial y_t}\frac{\partial y_t}{\partial z_t}\frac{\partial z_t}{\partial h_t}, \ \ \ \ \ y_t=softmax(z_t), \ \ z_t=Vh_t$

$J$ 关于 $U$ 的梯度为：

\partial J t \partial U = \partial J t \partial h t \partial h t \partial U

$\frac{\partial J_t}{\partial U}=\frac{\partial J_t}{\partial h_t}\frac{\partial h_t}{\partial U}$

由于 $h_t$ 是 $h_{t-1},U$ 的函数，而 $h_{t-1}$ 又是 $h_{t-2},U$ 的函数…所以 $h_t$ 是关于 $h_{t-1},h_{t-2},...,h_1,U$ 的函数，可以得到（注： $h_t$ 的链式求导展开，建议手算一遍）：

∂ht∂U=∑tk=1∂ht∂hk∂hk∂U ∂ h t ∂ U = ∑ k = 1 t ∂ h t ∂ h k ∂ h k ∂ U $\frac{\partial h_t}{\partial U}=\sum_{k=1}^t\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial U}$

其中：

∂ht∂hk=∏ti=k+1∂hi∂hi−1=∏ti=k+1UTdiag[f′(hi−1)] ∂ h t ∂ h k = ∏ i = k + 1 t ∂ h i ∂ h i − 1 = ∏ i = k + 1 t U T d i a g [ f ′ ( h i − 1 ) ] $\frac{\partial h_t}{\partial h_k}=\prod_{i=k+1}^t\frac{\partial h_i}{\partial h_{i-1}}=\prod_{i=k+1}^tU^Tdiag[f^{'}(h_{i-1})]$

则有：

∂J∂U=∑Tt=1∂Jt∂ht∑tk=1{∏ti=k+1UTdiag[f′(hi−1)]}∂hk∂U ∂ J ∂ U = ∑ t = 1 T ∂ J t ∂ h t ∑ k = 1 t { ∏ i = k + 1 t U T d i a g [ f ′ ( h i − 1 ) ] } ∂ h k ∂ U $\frac{\partial J}{\partial U}=\sum_{t=1}^T\frac{\partial J_t}{\partial h_t}\sum_{k=1}^t\{\prod_{i=k+1}^tU^Tdiag[f^{'}(h_{i-1})]\}\frac{\partial h_k}{\partial U}$

由于 $W$ 也在 $f$ 函数中，类似于 $U$ ，我们可以得到：

\frac{\partial J}{\partial W} = \sum_{t = 1}^{T} \frac{\partial J_{t}}{\partial h_{t}} \sum_{k = 1}^{t} {\prod_{i = k + 1}^{t} U^{T} d i a g [f^{^{'}} (h_{i - 1})]} \frac{\partial h_{k}}{\partial W}

$\frac{\partial J}{\partial W}=\sum_{t=1}^T\frac{\partial J_t}{\partial h_t}\sum_{k=1}^t\{\prod_{i=k+1}^tU^Tdiag[f^{'}(h_{i-1})]\}\frac{\partial h_k}{\partial W}$

可以看到， $\frac{\partial J}{\partial U}$ 和 $\frac{\partial J}{\partial W}$ 两部分都涉及到了连乘，当连乘项数很多，且乘子 $U^T$ <1时，梯度便会接近于0；而当乘子 $U^T$ >1时，梯度便会接近于无穷，这就是RNN的梯度消失/梯度爆炸的问题。这导致RNN只能学习到短周期的关系，当周期过长（连乘项很多），便会导致学习过程出问题，因此也叫长期依赖问题。

RNN的改进方案——LSTM、GRU

长短时记忆神经网络（Long Short-Term Memory Neural Network，下称LSTM）是RNN的一个变体，可以有效地解决简单循环神经网络的梯度消失/爆炸问题。LSTM 模型的关键是引入了一组记忆单元（Memory Units），允许网络学习何时遗忘历史信息，何时用新信息更新记忆单元。在时刻 t 时，记忆单元 $c_t$ 记录了到当前时刻为止的所有历史信息，并受三个“门”控制：输入门 $i_t$ , 遗忘门 $f_t$ 和输出门 $o_t$ 。三个门的元素的值在[0, 1] 之间。LSTM与原始RNN对比如下：
这里写图片描述
可以直观感受到，原始RNN中，梯度流向的路线是相对单一的，而在LSTM中通过三个门的控制，使得梯度流向更加得复杂，公式如下：

f t = σ (W f x t + U f h t - 1 + b f) i t = σ (W i x t + U i h t - 1 + b i) o t = σ (W o x t + U o h t - 1 + b o) c t - = t a n h (W c x t + U c h t - 1) c t = f t ⊙ c t - 1 + i t ⊙ c t - h t = o t ⊙ t a n h (c t)

$\begin{align} & f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f) \notag \\ & i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i) \notag \\ & o_t=\sigma(W_ox_t+U_oh_{t-1}+b_o) \notag \\ & \stackrel{-}{c_t}= tanh(W_cx_t+U_ch_{t-1}) \notag \\ & c_t=f_t\odot c_{t-1}+i_t\odot \stackrel {-}{c_t} \notag \\ & h_t=o_t\odot tanh(c_t) \notag \end{align}$

遗忘门 $f_t$ 控制每一个内存单元需要遗忘多少信息，输入门 $i_t$ 控制每一个内存单元需要加入多少新的信息，输出门 $o_t$ 控制每一个内存单元输出多少信息， $\sigma$ 是logsitic函数。那么这样改进有什么好处呢？以 $\frac{\partial h}{\partial U}$ 为例，转化为求 $\frac{\partial h}{\partial c}$ 和 $\frac{\partial h}{\partial o}$ 。 $c_t$ 是由两部分求和构成，避免了在求导连乘时过大或过小的情况， $o_t$ 同理。通过引入门控制，将梯度分流到了不同的部分，也就极大地降低了梯度消失/爆炸出现的风险。

可是LSTM在实际使用过程中带有大量的参数，且其中门的功能多少有重叠。既想要在保持效果的基础上加快训练速度，又要杜绝梯度消失/爆炸的出现。于是就有了LSTM的简化版本——门限循环单元（Gated Recurrent Unit，下称GRU）。GRU将输入门和遗忘门合并成一个门：更新门（Update Gate），同时还合并了记忆单元 $c_t$ 和隐层输出 $h_t$ ，更新门 $z_t$ 控制当前的状态需要遗忘多少历史和接收多少新信息。重置门 $r_t$ 用来控制接收信息中有多少时来自于历史信息。GRU视图与公式如下：
这里写图片描述