循环神经网络教程第3部分 BPTT

最新推荐文章于 2023-07-30 22:44:53 发布

mstar1992

最新推荐文章于 2023-07-30 22:44:53 发布

阅读量1.8k

点赞数

分类专栏：深度学习

深度学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

本文详细介绍了BPTT算法在RNN中的应用，以及梯度消失问题，包括其原因和影响。通过分析计算梯度的过程，揭示了tanh和sigmoid激活函数导致的梯度消失，并探讨了ReLU如何缓解这一问题。最后，提到了LSTM和GRU作为解决梯度消失的有效方案。

摘要由CSDN通过智能技术生成

在本教程的前面部分，我们从头实现了RNN，但没有详细介绍如何通过BPTT算法计算梯度。在本部分中，我们将简要概述BPTT并解释它与传统反向传播的区别。然后我们将尝试理解消失梯度问题，这导致了LSTM和GRU的发展，这两个是目前应用于NLP（和其他领域）最流行的模型。消失梯度问题最初是由Sepp Hochreiter于1991年发现的，最近由于深度架构的应用的增加而受到关注。
要完全理解这一部分，我建议你先熟悉微分链式规则和基本反向传播原理。如果你不熟悉，你可以以增加难度的顺序在这里，这里和这里找到优秀的教程。

BPTT

让我们快速回顾一下RNN的基本方程。注意，现在o变成了 $\hat {y}$ ，这只是为了参考的一些文献保持一致。

s t y^t = tanh (U x t + W s t - 1) = s o f t m a x (V s t)

$\begin{aligned} s_t &= \tanh(Ux_t + Ws_{t-1}) \\ \hat{y}_t &= \mathrm{softmax}(Vs_t) \end{aligned}$

我们也定义了损失(或错误)是交叉熵损失:

E t (y t, y^t) E (y, y^) = - y t log y^t = \sum t E t (y t, y^t) = - \sum t y t log y^t

$\begin{aligned} E_t(y_t, \hat{y}_t) &= - y_{t} \log \hat{y}_{t} \\ E(y, \hat{y}) &=\sum\limits_{t} E_t(y_t,\hat{y}_t) \\ & = -\sum\limits_{t} y_{t} \log \hat{y}_{t} \end{aligned}$

这里 $y_t$ 是时刻t正确的单词(输出)， $\hat{y}_t$ 是预测值。我们通常把整个序列(一个句子)当作一个训练样本，总的损失就是每个时刻(单词)的损失之和。

记住，我们的目标是计算参数 $U，V和W$ 的误差梯度，然后使用随机梯度下降学习好的参数。就像把损失值加和一样，我们把一个训练样本每个时刻的梯度也加起来： $\frac {\partial E} {\partial W} = \sum \limits_ {t} \frac {\partial E_t} {\partial W}$ 。

为了计算这些梯度，我们使用微分链式的规则。这是从错误开始应用反向传播的反向传播算法。对于本文的其余部分，我们将使用 $E_3$ 作为例子。

\partial E 3 \partial V = \partial E 3 \partial y ^ 3 \partial y ^ 3 \partial V = \partial E 3 \partial y ^ 3 \partial y ^ 3 \partial m 3 \partial m 3 \partial V = - y 3 y ^ 3 (y^3 - y^23) \otimes s 3 = (y^3 y 3 - y 3) \otimes s 3

$\begin{aligned} \frac{\partial E_3}{\partial V} &=\frac{\partial E_3}{\partial \hat{y}_3}\frac{\partial\hat{y}_3}{\partial V}\\ &=\frac{\partial E_3}{\partial \hat{y}_3}\frac{\partial\hat{y}_3}{\partial m_3}\frac{\partial m_3}{\partial V}\\&=-\frac{y_3}{\hat y_3}(\hat y_3-\hat y_3^2) \otimes s_3\\ &=(\hat{y}_3y_3 - y_3) \otimes s_3 \\ \end{aligned}$

在上式中， $m_3 =Vs_3$ , and $\otimes$ 是两个向量的外积。我想要说明的一点是 $\frac {\partial E_3} {\partial V}$ 只取决于当前时间步长的值 $\hat {y}_3，y_3，s_3$ 。如果你有了这些，计算V的梯度就是简单矩阵乘法。

但是计算 $\frac{\partial E_3}{\partial W}$ (and for $U$ ) 就是另外一回事了。我们在后向传播上那样，定义后向传播的 $\delta$ 向量(残差),针对第 $l$ 层的每一个节点 $i$ ,我们计算出其“残差” $\delta_i^{(l)}$ ,该残差表明了该节点对最终输出值的残差产生了多少影响。RNN的每一层只有一个节点。以前三层为例：

s 3 = t a n h (z 3), z 3 = U x 3 + W s 2 s 2 = t a n h (z 2), z 2 = U x 2 + W s 1 s 1 = t a n h (z 1), z 1 = U x 1 + W s 0 s 0 = t a n h (z 0), z 0 = U x 0 + W s - 1

$s_3 = tanh(z_3), z_3 = Ux_3+ Ws_2\\s_2 = tanh(z_2),z_2 = Ux_2+ Ws_1\\s_1 = tanh(z_1),z_1 = Ux_1+ Ws_0\\s_0 = tanh(z_0),z_0 = Ux_0+ Ws_{-1}$

δ (3) 3 = \partial E 3 \partial z 3 = \partial E 3 \partial s 3 \partial s 3 \partial z 3 = \partial E 3 \partial s 3 f' (z 3) δ (3) 2 = \partial E 3 \partial z 2 = \partial E 3 \partial s 3 \partial s 3 \partial z 3 \partial z 3 \partial s 2 \partial s 2 \partial z 2 = δ (3) 3 W f' (z 2) δ (3) 1 = \partial E 3 \partial z 1 = \partial E 3 \partial s 3 \partial s 3 \partial z 3 \partial z 3 \partial s 2 \partial s 2 \partial z 2 \partial z 2 \partial s 1 \partial s 1 \partial z 1 = δ (3) 2 W f' (z 1) δ (3) 0 = \partial E 3 \partial z 0 = \partial E 3 \partial s 3 \partial s 3 \partial z 3 \partial z 3 \partial s 2 \partial s 2 \partial z 2 \partial z 2 \partial s 1 \partial s 1 \partial z 1 \partial z 1 \partial s 0 \partial s 0 \partial z 0 = δ (3) 1 W f' (z 0)

$\begin{align*} \delta_3^{(3)} = \frac{\partial E_3}{\partial z_3} =\frac{\partial E_3}{\partial s_3}\frac{\partial s_3}{\partial z_3}=\frac{\partial E_3}{\partial s_3}f'(z_3) \\ \delta_2^{(3)} = \frac{\partial E_3}{\partial z_2} =\frac{\partial E_3}{\partial s_3}\frac{\partial s_3}{\partial z_3}\frac{\partial z_3}{\partial s_2}\frac{\partial s_2}{\partial z_2} =\delta_3^{(3)}Wf'(z_2) \\ \delta_1^{(3)} = \frac{\partial E_3}{\partial z_1} =\frac{\partial E_3}{\partial s_3}\frac{\partial s_3}{\partial z_3}\frac{\partial z_3}{\partial s_2}\frac{\partial s_2}{\partial z_2} \frac{\partial z_2}{\partial s_1}\frac{\partial s_1}{\partial z_1} =\delta_2^{(3)}Wf'(z_1) \\ \delta_0^{(3)} = \frac{\partial E_3}{\partial z_0} =\frac{\partial E_3}{\partial s_3}\frac{\partial s_3}{\partial z_3}\frac{\partial z_3}{\partial s_2}\frac{\partial s_2}{\partial z_2} \frac{\partial z_2}{\partial s_1}\frac{\partial s_1}{\partial z_1}\frac{\partial z_1}{\partial s_0}\frac{\partial s_0}{\partial z_0} =\delta_1^{(3)}Wf'(z_0) \end{align*}$

\partial E 3 \partial W = δ (3) 3 s 2 + δ (3) 2 s 1 + δ (3) 1 s 0 + δ (3) 0 s - 1

$\begin{align*} \frac{\partial E_3}{\partial W} =\delta_3^{(3)}s_2+\delta_2^{(3)}s_1+\delta_1^{(3)}s_0+\delta_0^{(3)}s_{-1}\\ \end{align*}$

用代码实现一个原生的BPTT大概像如下这样:

def bptt(self, x, y):
    T = len(y)
    # Perform forward propagation
    o, s = self.forward_propagation(x)
    # We accumulate the gradients in these variables
    dLdU = np.zeros(self.U.shape)
    dLdV = np.zeros(self.V.shape)
    dLdW = np.zeros(self.W.shape)
    delta_o = o
    delta_o[np.arange(len(y)), y] -= 1.
    # For each output backwards...
    for t in np.arange(T)[::-1]:
        dLdV += np.outer(delta_o[t], s[t].T)
        # Initial delta calculation: dL/dz
        delta_t = self.V.T.dot(delta_o[t]) * (1 - (s[t] ** 2))
        # Backpropagation through time (for at most self.bptt_truncate steps)
        for bptt_step in np.arange(max(0, t-self.bptt_truncate), t+1)[::-1]:
            # print "Backpropagation step t=%d bptt step=%d " % (t, bptt_step)
            # Add to gradients at each previous step
            dLdW += np.outer(delta_t, s[bptt_step-1])              
            dLdU[:,x[bptt_step]] += delta_t
            # Update delta for next step dL/dz at t-1
            delta_t = self.W.T.dot(delta_t) * (1 - s[bptt_step-1] ** 2)
    return [dLdU, dLdV, dLdW]

从这里你可以看出为什么标准的RNN对于训练长序列(句子)，20个单词或更多的句子非常困难了，因为你需要后向传播很多层。在实践中，许多人将反向传播截断到几个步骤。

梯度消失问题

让我们再仔细看一下我们上面计算的梯度：

\partial E 3 \partial W = δ (3) 3 s 2 + δ (3) 2 s 1 + δ (3) 1 s 0 + δ (3) 0 s - 1

$\begin{align*} \frac{\partial E_3}{\partial W} =\delta_3^{(3)}s_2+\delta_2^{(3)}s_1+\delta_1^{(3)}s_0+\delta_0^{(3)}s_{-1} \end{align*}$

我们可以把上面的梯度写成：

\partial E 3 \partial W = δ (3) 3 (s 2 + w f' (z 2) s 1 + w f' (z 2) s 1 + w 2 f' (z 2) f' (z 1) s 0 + w 3 f' (z 2) f' (z 1) f' (z 0) s - 1)

$\begin{aligned} \frac{\partial E_3}{\partial W} &= \delta_3^{(3)}(s_2+wf'(z_2)s_1+wf'(z_2)s_1+w^2f'(z_2)f'(z_1)s_0+w^3f'(z_2)f'(z_1)f'(z_0)s_{-1})\\ \end{aligned}$
因为

tanh（或sigmoid $tanh（或sigmoid$ ）激活函数将所有值映射到-1和1之间的范围内，导数的取值也限制在(0,1]（在

sigmoid $sigmoid$ 的情况下为(0,1/4]）:

可以看出 $\tanh$ and $sigmoid$ 函数在两头趋于直线，导数趋于0。这种情况下对应的神经元是饱和的，它们的梯度是0，并且驱使前面层的梯度也朝0发展。因此，有了矩阵中很小的值以及多个矩阵乘法（特别是t-k），梯度值以指数的速度收缩，最终在几个时刻之后完全消失。来自“远处”时刻的梯度贡献值变为零，这些时刻的状态对正在学习的内容没有贡献：最终学习不到远程依赖关系。梯度消失不仅仅发生在RNN的中。它们也发生在非常深的前馈神经网络中。这只是RNN通常非常深（就像我们的例句一样长），使得这个问题更常见。

很容易想象，根据我们的激活函数和网络参数，如果Jacobian矩阵的值很大，梯度将会爆炸而不是消失。这被称为梯度爆炸问题。梯度消失比梯度爆炸更受关注的原因有两方面的。首先，梯度爆炸是显而易见的，梯度将成为NaN（不是一个数字），你的程序会崩溃。其次，通过预定义的阈值（如这篇论文所讨论的那样）中截取梯度，对爆炸梯度来说是非常简单有效的解决方案。梯度消失有更多的问题，因为当它们发生时不是很明显，处理它们的方法也不是很容易想到。

幸运的是，有几种方法可以缓解梯度消失问题。 $W$ 矩阵的适当初始化可以减少梯度消失的影响。也可以通过正则化缓解。更好的解决方案是使用 $ReLU$ 而不是 $tanh$ 或 $sigmoid$ 激活函数。 ReLU导数是0或1的常数，因此它不太可能受到梯度消失。更常见的解决方案是使用LSTM或GRU。 LSTM是1997年首次提出的，并且是目前NLP中最广泛使用的模型。 GRU，2014年首次提出，是LSTM的简化版本。这两种RNN架构都明确地被设计用来处理梯度消失并可以有效地学习远程依赖。我们将在本教程的下一部分介绍它们。