【周志华机器学习】五、神经网络之RNN

CHH3213

已于 2022-04-18 20:16:47 修改

阅读量1.5k

点赞数 2

分类专栏：机器学习文章标签：机器学习人工智能 RNN

于 2022-04-18 20:16:09 首次发布

本文链接：https://blog.csdn.net/weixin_42301220/article/details/124249532

版权

机器学习专栏收录该内容

27 篇文章 63 订阅

订阅专栏

本文介绍了循环神经网络（RNN）的基础知识，包括语言模型、RNN结构、双向RNN和深度RNN，并详细阐述了RNN的训练算法BPTT。讨论了RNN训练中Loss波动大和梯度爆炸消失的问题，提出了解决方案。内容涵盖RNN的前向计算、误差项计算和权重梯度计算，适合于自然语言处理和深度学习领域的学习者。

摘要由CSDN通过智能技术生成

文章目录

参考资料
1. 概念
2. 循环神经网络的训练算法：BPTT
3. 问题
- 3.1 为什么RNN 训练的时候Loss波动很大
- 3.2 RNN的梯度爆炸和消失

参考资料

本博客根据参考资料所做的笔记，主要用于学习，非技术类博客，因此存在大量复制粘贴，请见谅。

1. 概念

RNN是在自然语言处理领域中最先被用起来的，比如，RNN可以为语言模型来建模。那么，什么是语言模型呢？

1.1 语言模型

语言模型：给定一个一句话前面的部分，预测接下来最有可能的一个词是什么。
举个例子，

我昨天上课开小差被老师发现了，老师批评了____。

我们给电脑展示了这句话前面这些词，然后，让电脑写下接下来的一个词。在这个例子中，接下来的这个词最有可能是『我』，而不太可能是『小明』，甚至是『吃饭』。

语言模型是对一种语言的特征进行建模，它有很多很多用处。比如在**语音转文本(STT)**的应用中，声学模型输出的结果，往往是若干个可能的候选词，这时候就需要语言模型来从这些候选词中选择一个最可能的。当然，它同样也可以用在图像到文本的识别中(OCR)。

1.2 RNN

循环神经网络（Recurrent Neural Network, RNN）是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（循环单元）按链式连接的递归神经网络（recursive neural network）

下图是一个简单的循环神经网络如，它由输入层、一个隐藏层和一个输出层组成：

在这里插入图片描述

如果把上面有W的那个带箭头的圈去掉，它就变成了最普通的全连接神经网络。x是一个向量，它表示输入层的值（这里面没有画出来表示神经元节点的圆圈）；s是一个向量，它表示隐藏层的值（这里隐藏层面画了一个节点，你也可以想象这一层其实是多个节点，节点数与向量s的维度相同）；U是输入层到隐藏层的权重矩阵；o也是一个向量，它表示输出层的值；V是隐藏层到输出层的权重矩阵。那么，现在我们来看看W是什么。循环神经网络的隐藏层的值s不仅仅取决于当前这次的输入x，还取决于上一次隐藏层的值s。权重矩阵 W就是隐藏层上一次的值作为这一次的输入的权重。

如果我们把上面的图展开，循环神经网络也可以画成下面这个样子：

在这里插入图片描述

这个网络在t时刻接收到输入 $x_t$ 之后，隐藏层的值是 $s_t$ ，输出值是 $o_t$ 。关键一点是， $s_t$ 的值不仅仅取决于 $x_t$ ，还取决于 $s_{t-1}$ 。我们可以用下面的公式来表示循环神经网络的计算方法
：
在这里插入图片描述
式1是输出层的计算公式，输出层是一个全连接层，也就是它的每个节点都和隐藏层的每个节点相连。V是输出层的权重矩阵，g是激活函数。式2是隐藏层的计算公式，它是循环层。U是输入x的权重矩阵，W是上一次的值 $s_t$ 作为这一次的输入的权重矩阵，f是激活函数。

从上面的公式我们可以看出，循环层和全连接层的区别就是循环层多了一个权重矩阵 W。

可以发现，循环神经网络也是一种递归神经网络。

如果把式2反复代入式1，即：
在这里插入图片描述

从上面可以看出，循环神经网络的输出值，是受前面历次输入值 $x_t$ 、 $x_{t-1}$ 、 $x_{t-2}$ 、 $x_{t-3}$ 影响的，这就是为什么循环神经网络可以往前看任意多个输入值的原因。

1.3 双向RNN

之前介绍的循环神经⽹络模型都是假设当前时间步是由前⾯的较早时间步的序列决定的，因此它们都将信息通过隐藏状态从前往后传递。有时候，当前时间步也可能由后⾯时间步决定。例如，当我们写下⼀个句⼦时，可能会根据句⼦后⾯的词来修改句⼦前⾯的⽤词。双向循环神经⽹络通过增加从后往前传递信息的隐藏层来更灵活地处理这类信息。下图演⽰了⼀个含单隐藏层的双向循环神经⽹络的架构。

在这里插入图片描述

我们先考虑上图中， $y_2$ 的计算.

从上图可以看出，双向卷积神经网络的隐藏层要保存两个值，一个A参与正向计算，另一个值A’参与反向计算。最终的输出值 $y_2$ 取决于 $A_2$ 和 $A_2'$ 。其计算方法为：

在这里插入图片描述
$A_2$ 和 $A_2'$ 则分别计算：

现在，我们已经可以看出一般的规律：正向计算时，隐藏层的值 $s_t$ 与 $s_{t-1}$ 有关；反向计算时，隐藏层的值 $s_t'$ 与 $s_{t+1}'$ 有关；最终的输出取决于正向和反向计算的加和。现在，我们仿照式1和式2，写出双向循环神经网络的计算方法：

在这里插入图片描述
从上面三个公式我们可以看到，正向计算和反向计算不共享权重，也就是说U和U’、W和W’、V和V’都是不同的权重矩阵。

1.4 深度循环神经网络

前面我们介绍的循环神经网络只有一个隐藏层，我们当然也可以堆叠两个以上的隐藏层，这样就得到了深度循环神经网络。如下图所示：

在这里插入图片描述

我们把第i个隐藏层的值表示为 $s_t^{(i)}$ 、 $s_t^{'(i)}$ ，则深度循环神经网络的计算方式可以表示为：

在这里插入图片描述

2. 循环神经网络的训练算法：BPTT

BPTT算法是针对循环层的训练算法，它的基本原理和BP算法是一样的，也包含同样的三个步骤：

前向计算每个神经元的输出值；
反向计算每个神经元的误差项值，它是误差函数E对神经元j的加权输入的偏导数；
计算每个权重的梯度。

最后再用随机梯度下降算法更新权重。

在这里插入图片描述

2.1 前向计算

使用前面的式2对循环层进行前向计算：

在这里插入图片描述

我们假设输入向量x的维度是m，输出向量s的维度是n，则矩阵U的维度是 $\times m$ ，矩阵W的维度是 $\times n$ 。下面是上式展开成矩阵的样子，看起来更直观一些：
在这里插入图片描述注：元素的下标表示它是这个向量的第几个元素，它的上标表示第几个时刻。例如， $s_j^t$ 表示向量s的第j个元素在t时刻的值。 $u_{ji}$ 表示输入层第i个神经元到循环层第j个神经元的权重。 $w_{ji}$ 表示循环层第t-1时刻的第i个神经元到循环层第t个时刻的第j个神经元的权重。