深度学习（06）_循环神经网络RNN和LSTM_01

最新推荐文章于 2024-08-05 11:15:19 发布

莫失莫忘Lawlite

最新推荐文章于 2024-08-05 11:15:19 发布

阅读量2.7k

点赞数 2

分类专栏：系统原创深度学习文章标签：神经网络 RNN LSTM 循环神经网络

本文链接：https://blog.csdn.net/u013082989/article/details/73331676

版权

原创同时被 3 个专栏收录

42 篇文章 4 订阅

订阅专栏

深度学习

15 篇文章 2 订阅

订阅专栏

系统

4 篇文章 0 订阅

订阅专栏

循环神经网络RNN和LSTM_01

个人博客地址：点击这里访问

一、介绍

1、什么是RNN

传统的神经网络是层与层之间是全连接的，但是每层之间的神经元是没有连接的（其实是假设各个数据之间是独立的）
- 这种结构不善于处理序列化的问题。比如要预测句子中的下一个单词是什么，这往往与前面的单词有很大的关联，因为句子里面的单词并不是独立的。
RNN 的结构说明当前的的输出与前面的输出也有关，即隐层之间的节点不再是无连接的，而是有连接的
- 基本的结构如图，可以看到有个循环的结构，将其展开就是右边的结构

RNN基本结构

2、运算说明

如上图，输入单元(inputs units): {x0,x1,⋯⋯,xt,xt+1,⋯⋯} ,
- 输出单元(output units)为： $\{ {o_0},{o_1}, \cdots \cdots ,{o_t},{o_{t + 1}}, \cdots \cdots \}$ ,
- 隐藏单元(hidden units)输出集: $\{ {s_0},{s_1}, \cdots \cdots ,{ost},{s_{t + 1}}, \cdots \cdots \}$
时间 t 隐层单元的输出为： st=f(Uxt+Wst−1)
- f就是激励函数，一般是sigmoid,tanh, relu等
- 计算 ${s_{0}}$ 时，即第一个的隐藏层状态，需要用到 ${s_{-1}}$ ，但是其并不存在，在实现中一般置为0向量
- （如果将上面的竖着立起来，其实很像传统的神经网络，哈哈）
时间 t 的输出为： ot=Softmax(Vst)
- 可以认为隐藏层状态 ${s_t}$ 是网络的记忆单元. ${s_t}$ 包含了前面所有步的隐藏层状态。而输出层的输出 ${o_t}$ 只与当前步的 ${s_t}$ 有关。
- （在实践中，为了降低网络的复杂度，往往 ${s_t}$ 只包含前面若干步而不是所有步的隐藏层状态）
在RNNs中，每输入一步，每一层都共享参数U,V,W，（因为是将循环的部分展开，天然应该相等）
RNNs的关键之处在于隐藏层，隐藏层能够捕捉序列的信息。

3、应用方面

循环神经网络(Recurrent Neural Networks，RNNs)已经在众多自然语言处理(Natural Language Processing, NLP)中取得了巨大成功以及广泛应用。目前使用最广泛最成功的模型便是LSTMs(Long Short-Term Memory，长短时记忆模型)模型

(1) 语言模型和文本生成

给定一个单词序列，根据前面的单词预测下面单词的可能性
也可以根据概率生成新的词
这里给出了3篇论文

(2) 机器翻译

和上面的语言模型很像，只不过是根据一段过生成另外的一段话
注意的是开始的输出是在全部输入结束后生成的
一些论文
- A Recursive Recurrent Neural Network for Statistical Machine Translation
- Sequence to Sequence Learning with Neural Networks

机器翻译

(3) 语音识别

论文
- Towards End-to-End Speech Recognition with Recurrent Neural Networks

(4) 图像描述生成

根据图像，生成一段描述图像的话
需要和CNN结合使用

二、结构

1、One to One

即一个输入对应一个输出，就是上面的图

2、Many to One

即多个输入对应一个输出，比如情感分析，一段话中很多次，判断这段话的情感
其中 $x_{1},x_{2},\ldots,x_{t}$ 表示句子中的t个词，o代表最终输出的情感标签
前向计算就是： $f (x) = V s t = V (U x t + W s t - 1) = V (U x t + W (U x t - 1 + W s t - 2)) \dots$ $f(x)=Vs_{t}=V(Ux_{t}+Ws_{t-1})=V(Ux_{t}+W(Ux_{t-1}+Ws_{t-2}))\cdots$

3、One to Many

前向计算类似，不再给出

4、Many to Many

前向计算类似，不再给出

5、双向RNN（Bidirectional RNN）

比如翻译问题往往需要联系上下文内容才能正确的翻译，我们上面的结构线性传递允许“联系上文”，但是联系下文并没有，所以就有双向RNN
前向运算稍微复杂一点，以t时刻为例
$o_{t} = W_t^{(os)}s_t + W_t^{(oh)}h_t \ \quad = W_t^{(os)} (W_{t-1}^{(ss)} s_{t-1} + W_{t}^{(sx)} x_{t-1}) + W_t^{(oh)} (W_t^{(hh)} h_{t+1} + W_t^{(hx)}x_t)$

6、深层的RNN

上面的结构都是只含有一层的state层，根据传统NN和CNN，深层次的结构有更加号的效果，结构如图

三、Back Propagation Through Time(BPTT)训练

关于传统神经网络BP算法可以查看这里神经网络部分的推导

1、符号等说明

以下图为例

RNN基本结构
- 符号说明
- $\phi$ ………………………………………………隐藏层的激励函数
- $\varphi$ ………………………………………………输出层的变换函数
- $L_{t} = L_{t}\left( o_{t},y_{t} \right)$ ……………………………模型的损失函数
- 标签数据 $y_{t}$ 是一个 one-hot 向量

2、反向传播过程

接受完序列中所有样本后再统一计算损失，此时模型的总损失可以表示为（假设输入序列长度为n）： $L = \sum t = 1 n L t$ $L = \sum_{t = 1}^{n}L_{t}$
ot=φ(Vst)=φ(V(Uxt+Wst−1))
- 其中 $s_{0} = \mathbf{0 =}( 0,0,\ldots,0 )^{T}$
令： o∗t=Vst,s∗t=Uxt+Wst−1............(1) (就是没有经过激励函数和变换函数前)
- 则： $o_{t} = \varphi( o_{t}^*)$
- $s_{t} = \phi(s_{t}^{*})$

(1) 矩阵V的更新

对矩阵 V 的更新过程,根据(1)式可得， (和传统的神经网络一致，根据求导的链式法则):
- $\partial L t \partial o * t = \partial L t \partial o t * \partial o t \partial o * t = \partial L t \partial o t * φ' (o * t)$ ${{{\partial {L_t} \over \partial o_t^{\ast}}} = {{\partial L_t \over \partial o_t } \ast {\partial o_t \over \partial o_{t}^{\ast} }} = {{\partial L_t \over \partial o_t} \ast \varphi ^{'} (o_t^{\ast})}}$
- $\partial L t \partial V = \partial L t \partial V s t * \partial V s t \partial V = \partial L t \partial o * t \times s T t = (\partial L t \partial o t * φ' (o * t)) \times s T t$ ${{{\partial L_t} \over {\partial V }}} = {{\partial L_t \over \partial Vs_t} } \ast {{\partial Vs_t \over \partial V}} = {{\partial L_t \over \partial o_t^\ast}} \times s_t^T = ({{\partial L_t \over \partial o_t} \ast \varphi ^{'} (o_{t}^\ast)}) \times s_t^T$
因为 ${L = \sum_{t = 1}^{n}L_{t}}$ ，所以对矩阵V的更新对应的导数:

$\partial L \partial V = \sum t = 1 n (\partial L t \partial o t * φ' (o * t)) \times s T t$ ${{\partial L \over \partial V} = {\sum\limits_{t=1}^n ({\partial L_t \over \partial o_t} \ast \varphi ^{'} (o_t^\ast)) \times s_t^T}}$

(2) 矩阵U和W的更新

RNN 的 BP 算法的主要难点在于它 State 之间的通信
可以采用循环的方法来计算各个梯度，t应从n开始降序循环至 1
计算时间通道上的局部梯度（同样根据链式法则）
$\partial L t \partial s * t = \partial L t \partial V s t \times \partial s T t V T t \partial s t * \partial s t \partial s * t = V T \times (\partial L t \partial o t * φ' (o * t))$ ${{\partial L_t \over \partial s_t^{\ast}}} = {{\partial L_t \over \partial Vs_t}} \times {{\partial s_t^{T} V_t^{T} \over \partial s_t}} \ast {{\partial s_t \over \partial s_t^{\ast}}} = V^T \times ({{\partial L_t \over \partial o_t}} * {\varphi ^{'} (o_t^{\ast}))}$

\partial L t \partial s * k - 1 = \partial s * k \partial s * k - 1 \times \partial L t \partial s * k = W T \times (\partial L t \partial s * k * ϕ' (s * k - 1)), (k = 1, . . . . . ., t) . . . . . . . . . (2)

${{\partial L_t \over \partial s_{k-1}^\ast}} ={{\partial s_k^\ast \over \partial s_{k-1}^\ast}} \times {{\partial L_t \over \partial s_{k}^\ast}} = W_T \times ({{\partial L_t \over \partial s_k^\ast} * {\phi ^{'} (s_{k-1}^\ast)}}) , (k=1,......,t) .........(2)$
- 利用局部梯度计算 U和 W的梯度
- 这里累加是因为权值是共享的，所以往前推算一直用的是一样的权值

\partial L t \partial U + = \sum k = 1 t \partial L t \partial s * k \times \partial s * k \partial U = \sum k = 1 t \partial L t \partial s * k \times x T t

${\partial L_t \over \partial U} + = {\sum\limits_{k=1}^t {\partial L_t \over \partial s_k^\ast} \times {\partial s_k^\ast \over \partial U}} = {\sum\limits_{k=1}^t {\partial L_t\over \partial s_k^\ast}} \times x_t^T$

\partial L t \partial W + = \sum k = 1 t \partial L t \partial s * k \times \partial s * k \partial W = \sum k = 1 t \partial L t \partial s * k \times s T t - 1 . . . . . . . . . . . . . . . . . . . . (3)

${\partial L_t \over \partial W} + = {\sum\limits_{k=1}^t {\partial L_t \over \partial s_k^\ast} \times {\partial s_k^\ast \over \partial W}} = {\sum\limits_{k=1}^t {\partial L_t\over \partial s_k^\ast}} \times s_{t-1}^T ....................(3)$

3、训练问题

从* 公式(2)和(3) *中可以看出，时间维度上的权重W更新需要计算 $\phi^{'} (s_k^{\ast})$ ，即经过激励函数的导数
如果时间维度上很长，则这个梯度是累积的，所以造成梯度消失或爆炸
- 可以想象将结构图竖起来，就是一个深层的神经网络，所以容易出现梯度问题
- 关于梯度消失的问题可以查看我这里一遍博客
RNN 主要的作用就是能够记住之前的信息，但是梯度消失的问题又告诉我们不能记住太久之前的信息，改进的思路有两点
- 一是使用一些trick,比如合适的激励函数，初始化，BN等等
- 二是改进state的传递方式，比如就是下面提及的LSTM
- 关于为何 LSTMs 能够解决梯度消失，直观上来说就是上方时间通道是简单的线性组合

四、Long Short-Term Memory(LSTM，长短时记忆网络)

1、介绍

LSTM 是一般 RNN 的升级，因为一些序列问题，我们可能需要忘记一些东西， LSTM 和普通 RNN 相比, 多出了三个控制器. (输入控制, 输出控制, 忘记控制)
在LSTM里，这个叫做cell（其实就是前面的state,只是这里更加复杂了）, 可以看作一个黑盒，这个cell结合前面cell的输出 $h_{t-1}$ 和当前的输入 $x_{t}$ 来决定是否记忆下来，该网络结构在对长序列依赖问题中非常有效

2、结构

一个经典的cell结构如下图
- $\phi_{1}$ 是sigmoid函数， $\phi_{2}$ 是tanh函数
- *表示 element wise 乘法(就是点乘)，使用X表示矩阵乘法
LSTMs 的 cell 的时间通道有两条。
- 上方的时间通道（ $h^{\left( {old} \right)} \rightarrow h^{\left( {new} \right)}$ ）仅包含了两个代数运算,这意味着它信息传递的方式会更为直接 $h (n e w) = h (o l d) * r 1 + r 2$ $h^{(new)} = h^{(old)}*r_1 + r_2$
- 位于下方的时间通道（ $s^{\left( {old} \right)} \rightarrow s^{\left( {new} \right)}$ ）则运用了大量的层结构,在 LSTMs 中，我们通常称这些层结构为门（Gates）

LSTM cell结构

3、运算说明

Sigmoid 函数取值区间为 0-1，那么当 Sigmoid 对应的层结构输出 0 时，就对应着遗忘这个过程；当输出 1 时，自然就对应着接受这个过程。
- 事实上这也是 Sigmoid 层叫门的原因——它能决定“放哪些数据进来”和决定“不让哪些数据通过”
最左边的Sigmoid gate 叫做遗忘门, 控制着时间通道信息的遗忘程度
- 前向计算: $r_1 = \phi_1(W_1 \times x^*)$
- 其中 $x^* \buildrel \Delta \over =[x,s^{(old)}]$ ，表示当前输入样本和下方时间通道 $s^{(old)}$ 连接(concat)起来
第二个 Sigmoid Gate 通常被称为输入门（Input Gate）, 控制着当前输入和下方通道信息对上方通道信息的影响
- 前向运算为： $g_{1} = \phi_{1} ( W_{2} \times x^{*} )$ ,
第三个 Tanh Gate 则允许网络结构驳回历史信息, 因为tanh的值域是(-1,1)
- 前向运算为： $g_{2} = \phi_{2} ( W_{3} \times x^{*} )$
- $r_{2} = g_{1}*g_{2}$
第四个 Sigmoid Gate 通常被称为输出门（Output Gate），它为输出和传向下一个 cell 的下方通道信息作出了贡献。
- 对应的前向传导算法为： $g_{3} = \phi_{1}\left( W_{4} \times x^{*} \right)$
最终cell的输出为： $o = s^{\left( \text{new} \right)} = \phi_{2}\left( h^{\left( \text{new} \right)} \right)*g_{3}$
每个 Gate 对应的权值矩阵是不同的（ $W_{1}\sim W_{4}$ ），切勿以为它们会共享权值