四十二.循环神经网络(RNN)原理

最新推荐文章于 2024-02-04 13:11:43 发布

stackooooover

最新推荐文章于 2024-02-04 13:11:43 发布

阅读量947

点赞数

分类专栏：机器学习理论基础文章标签：神经网络深度学习 rnn

本文链接：https://blog.csdn.net/weixin_36128607/article/details/119726920

版权

机器学习理论基础专栏收录该内容

39 篇文章 8 订阅

订阅专栏

1.网络结构

全连接网络和卷积网络都属于前向反馈网络，模型的输出和模型本身没有关联。而循环神经网络的输出和模型间有反馈。
循环神经网络的输出和模型之间之所以有反馈，就是因为其引入了记忆体的概念。 $t$ 时刻的输入为 $x^{t}$ ，输出为 $y^{t}$ ，记忆体为 $h^{t}$ 。其中， $h^{t}$ 由 $x^{t}$ 和上一时刻的记忆体 $h^{t-1}$ 求得， $y^{t}$ 由记忆体 $h^{t}$ 求得。
$t$ 时刻网络结构图如下所示：
在这里插入图片描述
将循环网络按时间步 $t$ 展开：

在前向传播的过程中，主要更新记忆体 $h^{t}$ 和输出 $y^{t}$ ，参数矩阵 $\mathbf{W}$ 是不变的。
在反向传播中，主要用梯度下降来更新参数矩阵 $\mathbf{W}$ 。
循环神经网络借助循环核对时间特征进行提取，然后将提取的特征送入全连接网络进行预测。
循环核的数量是可以随意指定的，如下图：
在这里插入图片描述
由于记忆体的存在，循环神经网络保留了历史信息，常用来处理语音、文字等序列相关的信息。

2.前向传播

(1)记忆体 $h^{t}$

$t$ 时刻的隐藏状态 $h^{t}$ 由 $t$ 时刻的输入 $x^{t}$ 和 $t - 1$ 时刻的隐藏状态 $h^{t-1}$ 共同决定：
$h^{t}=\sigma (\mathbf{U}x^{t}+\mathbf{W}h^{t-1}+\mathbf{b})$
其中， $\mathbf{U}$ 、 $\mathbf{W}$ 为全局共享的系数矩阵， $\mathbf{b}$ 为偏置向量，$\sigma $为激活函数，一般为tanh。

(2)预测值 $\widehat{y}^{t}$

$\widehat{y}^{t}=\sigma (\mathbf{V}h^{t}+\mathbf{c})$
$\mathbf{V}$ 为全局共享的系数矩阵， $\mathbf{c}$ 为偏置向量，$\sigma $为激活函数，一般为softmax。

3.反向传播

(1)损失函数

模型的整体损失定义为各个时刻的损失之和：
$L=\sum _{t=1}^{T}L^{t}$
$t$ 时刻的损失一般使用交叉熵损失：
$L^{t}=-(\mathbf{y}^{t})^{T}\log \widehat{\mathbf{y}}^{t}$
其中， $\mathbf{y}^{t}$ 为真实值， $\widehat{\mathbf{y}}^{t}$ 为预测值，它们都是one-hot向量。
已知预测值 $\widehat{\mathbf{y}}^{t}$ 的计算过程：
$\widehat{y}^{t}=\sigma (\mathbf{V}h^{t}+\mathbf{c})$
为方便计算，引入中间变量：
$o^{t}=\mathbf{V}h^{t}+\mathbf{c}$
则：
$\widehat{y}^{t}=\sigma (o^{t})=Softmax(o^{t})=\frac{e^{o^{t}}}{1_{k}^{T}e^{o^{t}}}$
上式中， $1_{k}^{T}$ 为全 $1$ 向量， $K$ 为类别数，则分母为标量；分子为向量，则预测值 $\widehat{y}^{t}$ 为向量，带入损失函数 $L^{t}$ ：
$\begin{aligned} L^{t}&=-(\mathbf{y}^{t})^{T}\log \widehat{\mathbf{y}}^{t}\\ &= -(\mathbf{y}^{t})^{T}\ln \frac{e^{o^{t}}}{1_{k}^{T}e^{o^{t}}}\\ & = -(\mathbf{y}^{t})^{T}\ln e^{o^{t}}+(\mathbf{y}^{t})^{T}1_{k}\ln 1_{k}^{T}e^{o^{t}}\\ & = \ln 1_{k}^{T}e^{o^{t}}-(\mathbf{y}^{t})^{T}o^{t},((\mathbf{y}^{t})^{T}1_{k}=1) \end{aligned}$
上式中， $\ln 1_{k}^{T}e^{o^{t}},(\mathbf{y}^{t})^{T}o^{t}$ 都是标量，所以最终结果 $L^{t}$ 为标量。
所以， $t$ 时刻的损失函数为：
$L^{t}= \ln 1_{k}^{T}e^{o^{t}}-(\mathbf{y}^{t})^{T}o^{t}$

(2) $L^{t}$ 对 $\mathbf{V,c}$ 求梯度

标量对矩阵向量求导，使用矩阵微分和迹函数公式：
$\begin{aligned} dL^{t}&=tr[d\ln 1_{k}^{T}e^{o^{t}}-d(\mathbf{y}^{t})^{T}o^{t}] \\ &= tr[\frac{1}{1_{k}^{T}e^{o^{t}}}d1_{k}^{T}e^{o^{t}}-(\mathbf{y}^{t})^{T}do^{t}]\\ &=tr[\frac{1_{k}^{T}e^{o^{t}}}{1_{k}^{T}e^{o^{t}}}\odot do^{t} -(\mathbf{y}^{t})^{T}do^{t}]\\ &=tr [\frac{(1_{k}^{T}\odot e^{o^{t}})^{T}}{1_{k}^{T}e^{o^{t}}} do^{t} -(\mathbf{y}^{t})^{T}do^{t}]\\ &=tr[\frac{(e^{o^{t}})^{T}}{1_{k}^{T}e^{o^{t}}}do^{t} -(\mathbf{y}^{t})^{T}do^{t}]\\ &=tr[((\widehat{y}^{t})^{T}-(\mathbf{y}^{t})^{T})d(\mathbf{V}h^{t}+c)],(\widehat{y}^{t}=\frac{e^{o^{t}}}{1_{k}^{T}e^{o^{t}}})\\ & = tr[h^{t}((\widehat{y}^{t})^{T}-(\mathbf{y}^{t})^{T})d\mathbf{V}-((\widehat{y}^{t})^{T}-(\mathbf{y}^{t})^{T})dc] \end{aligned}$
最终，通过矩阵微分和导数的关系可得：
$\frac{\partial L}{\partial \mathbf{V}}=\sum_{t=1}^{T}\frac{\partial L^{t}}{\partial \mathbf{V}}=\sum_{t=1}^{T}[h^{t}((\widehat{\mathbf{y}}^{t})^{T}-(\mathbf{y}^{t})^{T})]^{T}=\sum_{t=1}^{T}(\widehat{\mathbf{y}}^{t}-\mathbf{y}^{t})(h^{t})^{T}\\ \frac{\partial L}{\partial \mathbf{c}}=\sum_{t=1}^{T}\frac{\partial L^{t}}{\partial \mathbf{c}}=\sum_{t=1}^{T}[(\widehat{\mathbf{y}}^{t})^{T}-(\mathbf{y}^{t})^{T}]^{T}=\sum_{t=1}^{T}(\widehat{\mathbf{y}}^{t}-\mathbf{y}^{t})$

(3) $L^{t}$ 对 $\mathbf{W,U,b}$ 求梯度

已知：
$h^{t}=\tanh (\mathbf{U}x^{t}+\mathbf{W}h^{t-1}+\mathbf{b})$
根据 $\tanh$ 函数和导数的关系，可得：
$h^{t})^{'}=1-(h^{t})^{2}$
对 $L^{t}$ 求导，标量对向量求导，使用矩阵微分和迹函数公式：
$\begin{aligned} dL^{t}&=tr[(\frac{\partial L^{t}}{\partial h^{t}})^{T}d\tanh(\mathbf{U}x^{t}+\mathbf{W}h^{t-1}+\mathbf{b})] \\ &= tr[(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})d(\mathbf{U}x^{t}+\mathbf{W}h^{t-1}+\mathbf{b})]\\ &= tr[(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})d(\mathbf{U})x^{t}+(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})d(\mathbf{W})h^{t-1}+(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})d\mathbf{b}]\\ &= tr[x^{t}(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})d\mathbf{U}+h^{t-1}(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})d\mathbf{W}+(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})d\mathbf{b}] \end{aligned}$
最终，通过矩阵微分和导数的关系可得：
$\frac{\partial L^{t}}{\partial \mathbf{U}}=[x^{t}(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})]^{T}=diag(1-(h^{t})^{2})\frac{\partial L^{t}}{\partial h^{t}}(x^{t})^{T}\\ \frac{\partial L^{t}}{\partial \mathbf{W}}=[h^{t-1}(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})]^{T}=diag(1-(h^{t})^{2})\frac{\partial L^{t}}{\partial h^{t}}(h^{t-1})^{T}\\ \frac{\partial L^{t}}{\partial \mathbf{b}}=[(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})]^{T}=diag(1-(h^{t})^{2})\frac{\partial L^{t}}{\partial h^{t}}$
以上三个梯度公式中都有 $\frac{\partial L^{t}}{\partial h^{t}}$ ，记公共项 $\frac{\partial L^{t}}{\partial h^{t}}$ 为误差项 $\delta ^{t}$ ，则要想求梯度必须先求误差项 $\delta ^{t}$ 。

(4)中间层的误差项 $\delta ^{t}$

根据RNN模型的求解过程可知，在某一序列位置 $t$ 的梯度损失由当前位置的输出对应的梯度损失和索引位置 $t + 1$ 时的梯度损失两部分共同决定：
$\begin{aligned} dL^{t}&=(\frac{\partial L^{t}}{\partial h^{t}})^{T}dh^{t}\\ &=tr[(\frac{\partial L^{t}}{\partial o^{t}})^{T} do^{t}+(\frac{\partial L^{t+1}}{\partial h^{t+1}})^{T} dh^{t+1}]\\ &= tr[(\widehat{y}-y)^{T}d(\mathbf{V}h^{t}+\mathbf{c})+(\delta ^{t+1})^{T}d\tanh (\mathbf{U}x^{t+1}+\mathbf{W}h^{t}+\mathbf{b})]\\ &=tr[(\widehat{y}-y)^{T}\mathbf{V}dh^{t}+(\delta ^{t+1})^{T}diag(1-(h^{t+1})^{2})d(\mathbf{U}x^{t+1}+\mathbf{W}h^{t}+\mathbf{b})]\\ &=tr[(\widehat{y}-y)^{T}\mathbf{V}+(\delta ^{t+1})^{T}diag(1-(h^{t+1})^{2})\mathbf{W}]dh^{t} \end{aligned}$
由此可得误差项：
$\begin{aligned} \delta ^{t}&=\frac{\partial L^{t}}{\partial h^{t}}\\ &=[(\widehat{y}-y)^{T}\mathbf{V}+(\delta ^{t+1})^{T}diag(1-(h^{t+1})^{2})\mathbf{W}]^{T}\\ &= \mathbf{V}^{T}(\widehat{y}-y)+\mathbf{W}^{T}diag(1-(h^{t+1})^{2})\delta ^{t+1} \end{aligned}$
因此， $\mathbf{W,U,b}$ 的梯度公式更新为：
$\frac{\partial L^{t}}{\partial \mathbf{U}}=[x^{t}(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})]^{T}=diag(1-(h^{t})^{2})\delta ^{t}(x^{t})^{T}\\ \frac{\partial L^{t}}{\partial \mathbf{W}}=[h^{t-1}(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})]^{T}=diag(1-(h^{t})^{2})\delta ^{t}(h^{t-1})^{T}\\ \frac{\partial L^{t}}{\partial \mathbf{b}}=[(\frac{\partial L^{t}}{\partial h^{t}})^{T}diag(1-(h^{t})^{2})]^{T}=diag(1-(h^{t})^{2})\delta ^{t}$

(5)最终层的误差项 $\delta ^{T}$

中间层的梯度误差 $\delta ^{t}$ 可以通过后一层的梯度误差 $\delta ^{t+1}$ 求得，最后一层的梯度误差 $\delta ^{T}$ 之后没有 $T + 1$ ，所以 $\delta ^{T}$ 只与当前层的输出 $o^{T}$ 相关：
$\delta ^{T}= \mathbf{V}^{T}(\widehat{y}-y)$