循环神经网络_循环神经络是为更好地处理时序信息而设计的。它引状态变量来存储过去的信-CSDN博客

本文链接：https://blog.csdn.net/qq_40230900/article/details/89295185

循环神经网络

循环神经网络为更好的处理时序信息而设计，它引入状态变量来存储过去的信息，并用其与当前的输入共同决定当前的输出。接下来我们以语言模型为例来阐述循环神经网络的方方面面。

语言模型

给定一个长度为T的词的序列 $w_1, w_2, ...,w_T$ ，语言模型将计算该序列的概率为： $P(w_1, w_2, ...,w_T)$

语言模型计算

假设序列 $w_1, w_2, ...,w_T$ 中每个词依次生成，则有：

$P(w_1, w_2, …,w_T) = \prod_{t=1}^{T}P(w_t| w_1, …,w_{t-1}) $

n元语法

n元语法是指一个词的出现只与前面n个词相关，即n阶马尔科夫链。此时语言模型为：

$P(w_1, w_2, …,w_T) = \prod_{t=1}^{T}P(w_{t-n}| w_1, …,w_{t-1}) $

循环神经网络

$H_t = \phi(X_t W_{xh}+H_{t-1}W_{hh}+b_h)$

$O_t = H_t W_{hq}+b_q$

循环神经网络的参数包含隐藏层权重 $W_{xh}, W_{hh}$ 和偏差 $b_h$ ；以及输出层的权重 $W_{hq}$ 和偏差 $b_q$ ；循环神经网络的参数数量不随时间增加而增长。

语言模型数据集

随机采样：原始序列中任意截取一段，因此无法用小批量最终时间步的隐藏状态来初始化下一个小批量的隐藏状态。

相邻采样：相邻的两个随机小批量在原始序列上的位置毗邻

循环神经网络从零开始实现

one-hot向量

定义模型

$H_{t(2*256)} = X_{t(2*1027)}W_{xh(1027*256)}$ + $H_{t-1(2*256)}W_{hh(256*256)}$ + $b_{h(256)}$

$O_{t(2*1027)} = H_{t(2*256)}W_{hq(256*1027)}+b_{q(1027)}$

定义预测函数

基于前缀prefix，来预测接下来的num_chars个字符。

裁剪梯度

为避免梯度爆炸，所有模型参数的元素拼成一个向量g，设裁剪阀值为 $\theta$ ，则裁剪后的梯度L2范数不超过 $\theta$ :

$min(\frac{\theta}{g},1)g$

困惑度

定义模型训练函数

循环神经网络的简洁实现

通过时间方向传播

$h_t = w_{hx}x_t+w_{hh}h_{t-1}$

$o_t = w_{qh}h_t$

损失函数：

$L=\frac{1}{T}\sum_{i=1}^{T}\ell(o_t, y_t)$

目标函数有关各时间步输出层变量的梯度 $\frac{\partial L}{\partial \boldsymbol{o}_t} = \frac{\partial \ell (\boldsymbol{o}_t, y_t)}{T \cdot \partial \boldsymbol{o}_t}.$

目标函数有关模型参数$W_{qh} $的梯度：$
\frac{\partial L}{\partial \boldsymbol{W}{qh}}
= \sum{t=1}^T \frac{\partial L}{\partial \boldsymbol{o}_t} \boldsymbol{h}_t^\top.
$

t=T: $\frac{\partial L}{\partial h_T} = W_{qh}^{T}\frac{\partial L}{\partial o_T}$

t<T: $\frac{\partial L}{\partial h_t} = W_{hh}^{T}\frac{\partial L}{\partial h_{t+1}} + W_{qh}^{T}\frac{\partial L}{\partial o_t}$

将上面递归公式展开，对任意时间步1<=t<=T,目标函数有关隐藏状态梯度为

$\frac{\partial L}{\partial h_{T-1}} = W_{hh}^{T}\frac{\partial L}{\partial h_{T}} + W_{qh}^{T}\frac{\partial L}{\partial o_(T-1)}=W_{hh}^{T} W_{qh}^{T}\frac{\partial L}{\partial o_T} + W_{qh}^{T}\frac{\partial L}{\partial o_(T-1)}$

$\frac{\partial L}{\partial h_{T-2}} = W_{hh}^{T}\frac{\partial L}{\partial h_{T-1}} + W_{qh}^{T}\frac{\partial L}{\partial o_(T-2)}=(W_{hh}^{T})^2 W_{qh}^{T}\frac{\partial L}{\partial o_T} + W_{hh}^{T}W_{qh}^{T}\frac{\partial L}{\partial o_(T-1)} + W_{qh}^{T}\frac{\partial L}{\partial o_(T-2)}$

以此类推

$\frac{\partial L}{\partial h_t} =\sum_{T}^{i=t} (W_{hh}^{T}){T-i} W_{qh}^{T}\frac{\partial L}{\partial o_{T+t-i}} $

由上式，当时间步数T较大或时间步t较小时，目标函数有关隐藏状态的梯度容易出现衰减或爆炸。

目标函数有关模型参数 $W_{hx}$ 的梯度为： $\frac{\partial L}{\partial \boldsymbol{W}_{hx}}=\sum_{t=1}^{T}\frac{\partial L}{\partial \boldsymbol{h}_t} \boldsymbol{x}_t^{\top}$

目标函数有关模型参数 $W_{hh}$ 的梯度为： $\frac{\partial L}{\partial \boldsymbol{W}_{hh}} = \sum_{t=1}^T \frac{\partial L}{\partial \boldsymbol{h}_t} \boldsymbol{h}_{t-1}^\top$

门控循环单元(GRU)

裁剪梯度可以应对梯度爆炸，却无法解决梯度衰减问题，从而导致循环神经网络较难捕捉时间序列中时间步距离较大的依赖关系。门控循环神经网络就是为了解决这一问题，首先介绍门控循环单元法(GRU)。

$R_t = \sigma(X_tW_{xr}+H_{t-1}W_{hr}+b_r)$

$Z_t = \sigma(X_tW_{xz}+H_{t-1}W_{hz}+b_r)$

候选隐藏状态计算： $\widetilde{H}_t = tanh(X_tW_{xh} +(R_t\odot H_{t-1})W_{hh}+ b_h)$

重置门控制了上一时间步的隐藏状态如何流入当前时间步的候选隐藏状态。而上一时间隐藏状态步包含了时间序列截止上一时间步的全部历史信息。因此重置门可以丢弃与预测无关的历史信息。

最后，时间步t的隐藏状态 $H_t$ 的计算使用当前时间步的更新门 $Z_t$ 来对上一时间步的隐藏状态 $H_{t-1}$ 和当前时间步的候选隐藏状态 $\widetilde{H_t}$ 做组合： $H_t = Z_t\odot H_{t-1} + (1-Z_t)\odot\widetilde{H_t}$ 。更新门可以控制隐藏状态应该如何被包含当前时间步信息的候选隐藏状态所更新。如果更新们在时间步t^'到t一直近似为1，那这段时间的输入信息几乎没有流入时间步t的隐藏状态 $H_t$ ，就相当于较早时间步的隐藏状态一直通过时间保存并传递到当前时间步t。从而解决循环神经网络中的梯度衰减问题。并更好的捕捉时间步较大情况下的依赖关系。