RNN,LSTM,GRU基本原理的个人理解

最新推荐文章于 2024-08-05 11:15:19 发布

lily_knight

最新推荐文章于 2024-08-05 11:15:19 发布

阅读量1.6w

点赞数 5

文章标签： RNN LSTM 深度学习

本文链接：https://blog.csdn.net/qq_38210185/article/details/79376053

版权

记录一下对RNN,LSTM,GRU基本原理（正向过程以及简单的反向过程）的个人理解

RNN

Recurrent Neural Networks，循环神经网络
（注意区别于recursive neural network，递归神经网络）

为了解决DNN存在着无法对时间序列上的变化进行建模的问题（如自然语言处理、语音识别、手写体识别），出现的另一种神经网络结构——循环神经网络RNN。

RNN结构

这里写图片描述

第 $\mathbf{t}$ 层神经元的输入，除了其自身的输入 $\mathbf{x}_{t}$ ，还包括上一层神经元的隐含层输出 $\mathbf{s}_{t-1}$
每一层的参数U,W,V都是共享的
每一层并不一定都得有输入和输出，如对句子进行情感分析是多到一，文本翻译多到多，图片描述一到多

数学描述

（以下开始符号统一）
回忆一下单隐含层的前馈神经网络
输入为 $\mathbf{X} \in \mathbb{R}^{n \times x}$ （n个维度为x的向量）
隐含层输出为

H = ϕ (X W x h + b h)

$\mathbf{H} = \phi(\mathbf{X} \mathbf{W}_{xh} + \mathbf{b}_h)$
输出层输入

H∈Rn×h H ∈ R n × h $\mathbf{H} \in \mathbb{R}^{n \times h}$
输出为

Y^= softmax (H W h y + b y)

$\hat{\mathbf{Y}} = \text{softmax}(\mathbf{H} \mathbf{W}_{hy} + \mathbf{b}_y)$
现在对

X X $\mathbf{X}$ 、

H H $\mathbf{H}$ 、

Y Y $\mathbf{Y}$ 都加上时序下标
同时引入一个新权重

Whh∈Rh×h W h h ∈ R h × h $\mathbf{W}_{hh} \in \mathbb{R}^{h \times h}$
得到RNN表达式

H t = ϕ (X t W x h + H t - 1 W h h + b h)

$\mathbf{H}_t = \phi(\mathbf{X}_t \mathbf{W}_{xh} + \mathbf{H}_{t-1}\mathbf{W}_{hh} + \mathbf{b}_h)$

Y^t = softmax (H t W h y + b y)

$\hat{\mathbf{Y}}_t = \text{softmax}(\mathbf{H}_t \mathbf{W}_{hy} +\mathbf{b}_y)$

H0 H 0 $\mathbf{H}_0$ 通常置零

深层RNN和双向RNN

这里写图片描述

通过时间反向传播和随之带来的问题

输入为 $\mathbf{x}_t \in \mathbb{R}^x$
不考虑偏置
隐含层变量为

h t = ϕ (W h x x t + W h h h t - 1)

$\mathbf{h}_t = \phi(\mathbf{W}_{hx} \mathbf{x}_t + \mathbf{W}_{hh} \mathbf{h}_{t-1})$
输出层变量为

o t = W y h h t

$\mathbf{o}_t = \mathbf{W}_{yh} \mathbf{h}_{t}$
则损失函数为

L = 1 T \sum t = 1 T ℓ (o t, y t)

$L = \frac{1}{T} \sum_{t=1}^T \ell (\mathbf{o}_t, y_t)$

以一个三层为例
这里写图片描述
三个参数更新公式为

W h x = W h x - η \partial L \partial W h x

$\mathbf{W}_{hx} = \mathbf{W}_{hx} - \eta \frac{\partial L}{\partial \mathbf{W}_{hx}}$

W h h = W h h - η \partial L \partial W h h

$\mathbf{W}_{hh} = \mathbf{W}_{hh} - \eta \frac{\partial L}{\partial \mathbf{W}_{hh}}$

W y h = W y h - η \partial L \partial W y h

$\mathbf{W}_{yh} = \mathbf{W}_{yh} - \eta \frac{\partial L}{\partial \mathbf{W}_{yh}}$
明显的

\partial L \partial o t = \partial ℓ ( o t , y t ) T \cdot \partial o t

$\frac{\partial L}{\partial \mathbf{o}_t} = \frac{\partial \ell (\mathbf{o}_t, y_t)}{T \cdot \partial \mathbf{o}_t}$
根据链式法则

\partial L \partial W y h = \sum t = 1 T prod (\partial L \partial o t, \partial o t \partial W y h) = \sum t = 1 T \partial L \partial o t h ⊤ t

$\frac{\partial L}{\partial \mathbf{W}_{yh}} = \sum_{t=1}^T \text{prod}(\frac{\partial L}{\partial \mathbf{o}_t}, \frac{\partial \mathbf{o}_t}{\partial \mathbf{W}_{yh}}) = \sum_{t=1}^T \frac{\partial L}{\partial \mathbf{o}_t} \mathbf{h}_t^\top$
先计算目标函数有关最终时刻隐含层变量的梯度

\partial L \partial h T = prod (\partial L \partial o T, \partial o T \partial h T) = W ⊤ y h \partial L \partial o T

$\frac{\partial L}{\partial \mathbf{h}_T} = \text{prod}(\frac{\partial L}{\partial \mathbf{o}_T}, \frac{\partial \mathbf{o}_T}{\partial \mathbf{h}_T} ) = \mathbf{W}_{yh}^\top \frac{\partial L}{\partial \mathbf{o}_T}$
假设

ϕ(x)=x ϕ ( x ) = x $\phi(x) = x$ （RNN中用激活函数relu还是tanh众说纷纭，有点玄学）

\partial L \partial h t = prod (\partial L \partial h t + 1, \partial h t + 1 \partial h t) + prod (\partial L \partial o t, \partial o t \partial h t) = W ⊤ h h \partial L \partial h t + 1 + W ⊤ y h \partial L \partial o t

$\frac{\partial L}{\partial \mathbf{h}_t}= \text{prod}(\frac{\partial L}{\partial\mathbf{h}_{t+1}}, \frac{\partial \mathbf{h}_{t+1}}{\partial \mathbf{h}_t} )+\text{prod}(\frac{\partial L}{\partial \mathbf{o}_t}, \frac{\partial \mathbf{o}_t}{\partial \mathbf{h}_t} ) = \mathbf{W}_{hh}^\top \frac{\partial L}{\partial \mathbf{h}_{t+1}} + \mathbf{W}_{yh}^\top \frac{\partial L}{\partial \mathbf{o}_t}$
通项为

\partial L \partial h t = \sum i = t T (W ⊤ h h) T - i W ⊤ y h \partial L \partial o T + t - i

$\frac{\partial L}{\partial \mathbf{h}_t}=\sum_{i=t}^T {(\mathbf{W}_{hh}^\top)}^{T-i} \mathbf{W}_{yh}^\top \frac{\partial L}{\partial \mathbf{o}_{T+t-i}}$

注意上式，当每个时序训练数据样本的时序长度T较大或者时刻t较小，目标函数有关隐含层变量梯度较容易出现衰减和爆炸

\partial L \partial W h x = \sum t = 1 T prod (\partial L \partial h t, \partial h t \partial W h x) = \sum t = 1 T \partial L \partial h t x ⊤ t

$\frac{\partial L}{\partial \mathbf{W}_{hx}}= \sum_{t=1}^T \text{prod}(\frac{\partial L}{\partial \mathbf{h}_t}, \frac{\partial \mathbf{h}_t}{\partial \mathbf{W}_{hx}}) =\sum_{t=1}^T \frac{\partial L}{\partial \mathbf{h}_t} \mathbf{x}_t^\top$

\partial L \partial W h h = \sum t = 1 T prod (\partial L \partial h t, \partial h t \partial W h h) = \sum t = 1 T \partial L \partial h t h ⊤ t - 1

$\frac{\partial L}{\partial \mathbf{W}_{hh}} = \sum_{t=1}^T \text{prod}(\frac{\partial L}{\partial \mathbf{h}_t}, \frac{\partial \mathbf{h}_t}{\partial \mathbf{W}_{hh}}) = \sum_{t=1}^T \frac{\partial L}{\partial \mathbf{h}_t} \mathbf{h}_{t-1}^\top$

梯度裁剪

为了应对梯度爆炸，一个常用的做法是如果梯度特别大，那么就投影到一个比较小的尺度上。 $\theta$ 为设定的裁剪“阈值”，为标量，若梯度的范数大于此阈值，将梯度缩小，若梯度的范数小于此阈值，梯度不变

g = min (θ ∥ g ∥, 1) g

$\boldsymbol{g} = \min\left(\frac{\theta}{\|\boldsymbol{g}\|}, 1\right)\boldsymbol{g}$

LSTM

RNN的隐含层变量梯度可能会出现衰减或爆炸。虽然梯度裁剪可以应对梯度爆炸，但无法解决梯度衰减。因此，给定一个时间序列，例如文本序列，循环神经网络在实际中其实较难捕捉两个时刻距离较大的文本元素（字或词）之间的依赖关系。
LSTM（long short-term memory）由Hochreiter和Schmidhuber在1997年被提出。

LSTM结构

这里两张图先不用细看，先着重记住公式后再回来看

这里写图片描述

数学描述

（同上，符号统一）
设隐含状态长度 $h$ , $t$ 时刻输入 $\mathbf{X}_t \in \mathbb{R}^{n \times x}$ （ $x$ 维）及 $t-1$ 时刻隐含状态 $\mathbf{H}_{t-1} \in \mathbb{R}^{n \times h}$ ,
输入门，遗忘门，输出门，候选细胞如下

I t = σ (X t W x i + H t - 1 W h i + b i)

$\mathbf{I}_t = \sigma(\mathbf{X}_t \mathbf{W}_{xi} + \mathbf{H}_{t-1} \mathbf{W}_{hi} + \mathbf{b}_i)$

F t = σ (X t W x f + H t - 1 W h f + b f)

$\mathbf{F}_t = \sigma(\mathbf{X}_t \mathbf{W}_{xf} + \mathbf{H}_{t-1} \mathbf{W}_{hf} + \mathbf{b}_f)$

O t = σ (X t W x o + H t - 1 W h o + b o)

$\mathbf{O}_t = \sigma(\mathbf{X}_t \mathbf{W}_{xo} + \mathbf{H}_{t-1} \mathbf{W}_{ho} + \mathbf{b}_o)$

C ~ t = tanh (X t W x c + H t - 1 W h c + b c)

$\tilde{\mathbf{C}}_t = \text{tanh}(\mathbf{X}_t \mathbf{W}_{xc} + \mathbf{H}_{t-1} \mathbf{W}_{hc} + \mathbf{b}_c)$

（思考侯选细胞激活函数的不同）
记忆细胞

C t = F t ⊙ C t - 1 + I t ⊙ C ~ t

$\mathbf{C}_t = \mathbf{F}_t \odot \mathbf{C}_{t-1} + \mathbf{I}_t \odot \tilde{\mathbf{C}}_t$
想象，如果遗忘门一直近似1且输入门一直近似0，过去的细胞将一直通过时间保存并传递至当前时刻
隐含状态

H t = O t ⊙ tanh (C t)

$\mathbf{H}_t = \mathbf{O}_t \odot \text{tanh}(\mathbf{C}_t)$
输出同RNN

Y^= softmax (H W h y + b y)

$\hat{\mathbf{Y}} = \text{softmax}(\mathbf{H} \mathbf{W}_{hy} + \mathbf{b}_y)$

GRU

由Cho、van Merrienboer、 Bahdanau和Bengio在2014年提出，比LSTM少一个门控，实验结果却相当

GRU结构

这里写图片描述

数学描述

设隐含状态长度 $h$ , $t$ 时刻输入 $\mathbf{X}_t \in \mathbb{R}^{n \times x}$ （ $x$ 维）及 $t-1$ 时刻隐含状态 $\mathbf{H}_{t-1} \in \mathbb{R}^{n \times h}$ ,
重置门，更新门如下

R t = σ (X t W x r + H t - 1 W h r + b r)

$\mathbf{R}_t = \sigma(\mathbf{X}_t \mathbf{W}_{xr} + \mathbf{H}_{t-1} \mathbf{W}_{hr} + \mathbf{b}_r)$

Z t = σ (X t W x z + H t - 1 W h z + b z)

$\mathbf{Z}_t = \sigma(\mathbf{X}_t \mathbf{W}_{xz} + \mathbf{H}_{t-1} \mathbf{W}_{hz} + \mathbf{b}_z)$
候选隐含状态

H ~ t = tanh (X t W x h + R t ⊙ H t - 1 W h h + b h)

$\tilde{\mathbf{H}}_t = \text{tanh}(\mathbf{X}_t \mathbf{W}_{xh} + \mathbf{R}_t \odot \mathbf{H}_{t-1} \mathbf{W}_{hh} + \mathbf{b}_h)$
隐含状态

H t = Z t ⊙ H t - 1 + (1 - Z t) ⊙ H ~ t

$\mathbf{H}_t = \mathbf{Z}_t \odot \mathbf{H}_{t-1} + (1 - \mathbf{Z}_t) \odot \tilde{\mathbf{H}}_t$
输出

Y^= softmax (H W h y + b y)

$\hat{\mathbf{Y}} = \text{softmax}(\mathbf{H} \mathbf{W}_{hy} + \mathbf{b}_y)$

（无力吐槽csdn了，预览和实际用的不一套渲染，公式丑死）

lily_knight

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
RNN,LSTM,GRU基本原理的个人理解

记录一下对RNN,LSTM,GRU基本原理（正向过程以及简单的反向过程）的个人理解RNNRecurrent Neural Networks，循环神经网络（注意区别于recursive neural network，递归神经网络）为了解决DNN存在着无法对时间序列上的变化进行建模的问题（如自然语言处理、语音识别、手写体识别），出现的另一种神经网络结构——循环神经网络RNN。...
复制链接

扫一扫