吴恩达深度学习第五章序列模型——第一周循环序列模型

最新推荐文章于 2021-06-24 20:22:11 发布

倚剑笑紅尘

最新推荐文章于 2021-06-24 20:22:11 发布

阅读量536

点赞数

分类专栏：机器学习机器学习文章标签：机器学习深度学习 nlp

本文链接：https://blog.csdn.net/qq_36782366/article/details/89391038

版权

机器学习同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

机器学习

29 篇文章 1 订阅

订阅专栏

循环序列模型

自然语言和音频都是前后相互关联的数据，对于这些序列数据需要使用循环神经网络（Recurrent Neural Network，RNN）来进行处理。

使用 RNN 实现的应用包括下图中所示：

Examples-of-Sequence-Model

数学模型

对于一个序列数据 x，用符号 x〈t〉来表示这个数据中的第 t个元素，用 y〈t〉来表示第 t个标签，用 Tx和 Ty来表示输入和输出的长度。对于一段音频，元素可能是其中的几帧；对于一句话，元素可能是一到多个单词。

第 i 个序列数据的第 t个元素用符号 $x^{(i)<t>}$ ，第 t个标签即为 $y^{(i)<t>}$ 。对应即有 $T^{(i)}_{x}$ 和 $T^{(i)}_y$ 。

想要表示一个词语，需要先建立一个词汇表（Vocabulary），或者叫字典（Dictionary）。将需要表示的所有词语变为一个列向量，可以根据字母顺序排列，然后根据单词在向量中的位置，用 one-hot 向量（one-hot vector）来表示该单词的标签：将每个单词编码成一个 $R^{|V| \times 1}$ 向量，其中 |V|是词汇表中单词的数量。一个单词在词汇表中的索引在该向量对应的元素为 1，其余元素均为 0。

例如，'zebra'排在词汇表的最后一位，因此它的词向量表示为：

$w^{zebra} = \left [ 0, 0, 0, ..., 1\right ]^T$

补充：one-hot 向量是最简单的词向量。它的缺点是，由于每个单词被表示为完全独立的个体，因此单词间的相似度无法体现。例如单词 hotel 和 motel 意思相近，而与 cat 不相似，但是

$(w^{hotel})^Tw^{motel} = (w^{hotel})^Tw^{cat} = 0$

循环神经网络模型

对于序列数据，使用标准神经网络存在以下问题：

对于不同的示例，输入和输出可能有不同的长度，因此输入层和输出层的神经元数量无法固定。
从输入文本的不同位置学到的同一特征无法共享。
模型中的参数太多，计算量太大。

为了解决这些问题，引入循环神经网络（Recurrent Neural Network，RNN）。一种循环神经网络的结构如下图所示：

Recurrent-Neural-Network

当元素 $x^{<t>}$ 输入对应时间步（Time Step）的隐藏层的同时，该隐藏层也会接收来自上一时间步的隐藏层的激活值 $a^{<t-1>}$ ，其中 $a^{<0>}$ 一般直接初始化为零向量。一个时间步输出一个对应的预测结果 $\hat y^{<t>}$ 。

循环神经网络从左向右扫描数据，同时每个时间步的参数也是共享的，输入、激活、输出的参数对应为 $W_{ax}$ 、 $W_{aa}$ 、 $W_{ay}$ 。

下图是一个 RNN 神经元的结构：

RNN-cell

前向传播过程的公式如下：

$a^{<0>} = \underset{0}{\rightarrow}$

$a^{<t>} = g_1(W_{aa}a^{<t-1>} + W_{ax}x^{<t>} + b_a)$

$\hat y^{<t>} = g_2(W_{ya}a^{<t>} + b_y)$

激活函数 g1通常选择 tanh，有时也用 ReLU；g2可选 sigmoid 或 softmax，取决于需要的输出类型。

为了进一步简化公式以方便运算，可以将 $W_{ax}$ 、 $W_{aa}$ 水平并列为一个矩阵 $W_{a}$ ，同时 $a^{<t-1>}$ 和 $x^{<t>}$ 堆叠成一个矩阵。则有：

$W_a = [W_{ax}, W_{aa}]$

$a^{<t>} = g_1(W_a[a^{<t-1>}, x^{<t>}] + b_a)$

$\hat y^{<t>} = g_2(W_{y}a^{<t>} + b_y)$

反向传播

为了计算反向传播过程，需要先定义一个损失函数。单个位置上（或者说单个时间步上）某个单词的预测值的损失函数采用交叉熵损失函数，如下所示：

$L^{<t>}(\hat y^{<t>}, y^{<t>}) = -y^{<t>}log\hat y^{<t>} - (1 - y^{<t>})log(1-\hat y^{<t>})$

将单个位置上的损失函数相加，得到整个序列的成本函数如下：

$J = L(\hat y, y) = \sum^{T_x}_{t=1} L^{<t>}(\hat y^{<t>}, y^{<t>})$

循环神经网络的反向传播被称为通过时间反向传播（Backpropagation through time），因为从右向左计算的过程就像是时间倒流。

更详细的计算公式如下：

formula-of-RNN

不同的结构

某些情况下，输入长度和输出长度不一致。根据所需的输入及输出长度，循环神经网络可分为“一对一”、“多对一”、“多对多”等结构：

Examples-of-RNN-architectures

目前我们看到的模型的问题是，只使用了这个序列中之前的信息来做出预测，即后文没有被使用。可以通过双向循环神经网络（Bidirectional RNN，BRNN）来解决这个问题。

语言模型

语言模型（Language Model）是根据语言客观事实而进行的语言抽象数学建模，能够估计某个序列中各元素出现的可能性。例如，在一个语音识别系统中，语言模型能够计算两个读音相近的句子为正确结果的概率，以此为依据作出准确判断。

建立语言模型所采用的训练集是一个大型的语料库（Corpus），指数量众多的句子组成的文本。建立过程的第一步是标记化（Tokenize），即建立字典；然后将语料库中的每个词表示为对应的 one-hot 向量。另外，需要增加一个额外的标记 EOS（End of Sentence）来表示一个句子的结尾。标点符号可以忽略，也可以加入字典后用 one-hot 向量表示。

对于语料库中部分特殊的、不包含在字典中的词汇，例如人名、地名，可以不必针对这些具体的词，而是在词典中加入一个 UNK（Unique Token）标记来表示。

将标志化后的训练集用于训练 RNN，过程如下图所示：

language-model-RNN-example

在第一个时间步中，输入的 $a^{<0>}$ 和 $\bg_white x^{<1>}$ 都是零向量， $\hat y^{<1>}$ 是通过 softmax 预测出的字典中每个词作为第一个词出现的概率；在第二个时间步中，输入的 $\bg_white x^{<2>}$ 是训练样本的标签中的第一个单词 $y^{<1>}$ （即“cats”）和上一层的激活项 $\bg_white a^{<1>}$ ，输出的 $\hat y^{<2>}$ 表示的是通过 softmax 预测出的、单词“cats”后面出现字典中的其他每个词的条件概率。以此类推，最后就可以得到整个句子出现的概率。

定义损失函数为：

$L(\hat y^{<t>}, y^{<t>}) = -\sum_t y_i^{<t>} log \hat y^{<t>}$

则成本函数为：

$J = \sum_t L^{<t>}(\hat y^{<t>}, y^{<t>})$

采样

在训练好一个语言模型后，可以通过采样（Sample）新的序列来了解这个模型中都学习到了一些什么。

Sampling

在第一个时间步输入 $a^{<0>}$ 和 $\bg_white x^{<1>}$ 为零向量，输出预测出的字典中每个词作为第一个词出现的概率，根据 softmax 的分布进行随机采样（np.random.choice），将采样得到的 $\hat y^{<1>}$ 作为第二个时间步的输入 $\bg_white x^{<2>}$ 。以此类推，直到采样到 EOS，最后模型会自动生成一些句子，从这些句子中可以发现模型通过语料库学习到的知识。

这里建立的是基于词汇构建的语言模型。根据需要也可以构建基于字符的语言模型，其优点是不必担心出现未知标识（UNK），其缺点是得到的序列过多过长，并且训练成本高昂。因此，基于词汇构建的语言模型更为常用。

RNN的梯度消失

The cat,which already ate a bunch of food, was full.

The cats,which already ate a bunch of food, were full.

对于以上两个句子，后面的动词单复数形式由前面的名词的单复数形式决定。但是基本的 RNN 不擅长捕获这种长期依赖关系。究其原因，由于梯度消失，在反向传播时，后面层的输出误差很难影响到较靠前层的计算，网络很难调整靠前的计算。

在反向传播时，随着层数的增多，梯度不仅可能指数型下降，也有可能指数型上升，即梯度爆炸。不过梯度爆炸比较容易发现，因为参数会急剧膨胀到数值溢出（可能显示为 NaN）。这时可以采用梯度修剪（Gradient Clipping）来解决：观察梯度向量，如果它大于某个阈值，则缩放梯度向量以保证其不会太大。相比之下，梯度消失问题更难解决。GRU 和 LSTM 都可以作为缓解梯度消失问题的方案。

GRU（门控循环单元）

GRU（Gated Recurrent Units, 门控循环单元）改善了 RNN 的隐藏层，使其可以更好地捕捉深层连接，并改善了梯度消失问题。

The cat,which already ate a bunch of food, was full.

当我们从左到右读上面这个句子时，GRU 单元有一个新的变量称为 c，代表记忆细胞（Memory Cell），其作用是提供记忆的能力，记住例如前文主语是单数还是复数等信息。在时间 t，记忆细胞的值 $c^{<t>}$ 等于输出的激活值 $a^{<t>}$ ； $\widetilde{c}^{<t>}$ 代表下一个 c 的候选值。 $\Gamma _{u}$ 代表更新门（Update Gate），用于决定什么时候更新记忆细胞的值。以上结构的具体公式为：

$\tilde c^{<t>} = tanh(W_c[c^{<t-1>}, x^{<t>}] + b_c)$

$\Gamma _u = \sigma(W_u[c^{<t-1>}, x^{<t>}] + b_u)$

$c^{<t>} = \Gamma_u \times \tilde c^{<t>} + (1 - \Gamma_u) \times c^{<t-1>}$

$a^{<t>} = c^{<t>}$

当使用 sigmoid 作为激活函数 σ 来得到 Γu时，Γu 的值在 0 到 1 的范围内，且大多数时间非常接近于 0 或 1。当 Γu=1时， $c^{<t>}$ 被更新为 $\widetilde{c}^{<t>}$ ，否则保持为 $c^{<t-1>}$ 。因为 Γu可以很接近 0，因此 $c^{<t>}$ 几乎就等于 $c^{<t-1>}$ 。在经过很长的序列后，c 的值依然被维持，从而实现“记忆”的功能。

以上实际上是简化过的 GRU 单元，但是蕴涵了 GRU 最重要的思想。完整的 GRU 单元添加了一个新的相关门（Relevance Gate） Γr，表示 $\widetilde{c}^{<t>}$ 和 $c^{<t>}$ 的相关性。因此，表达式改为如下所示：

$\tilde c^{<t>} = tanh(W_c[\Gamma_r * c^{<t-1>}, x^{<t>}] + b_c)$

$\Gamma_u = \sigma(W_u[c^{<t-1>}, x^{<t>}] + b_u)$

$\Gamma_r = \sigma(W_r[c^{<t-1>}, x^{<t>}] + b_r)$

$c^{<t>} = \Gamma_u \times \tilde c^{<t>} + (1 - \Gamma_u) \times c^{<t-1>}$

$a^{<t>} = c^{<t>}$

LSTM（长短期记忆）

LSTM（Long Short Term Memory，长短期记忆）网络比 GRU 更加灵活和强大，它额外引入了遗忘门（Forget Gate） Γf和输出门（Output Gate） Γo。其结构图和公式如下：

LSTM

将多个 LSTM 单元按时间次序连接起来，就得到一个 LSTM 网络。

$c^{<t>}$ 等于输出的激活值 $a^{<t>}$ ； $\widetilde{c}^{<t>}$ 代

以上是简化版的 LSTM。在更为常用的版本中，几个门值不仅取决于 $a^{<t-1>}$ 和 $x^{<t>}$ ，有时也可以偷窥上一个记忆细胞输入的值 $c^{<t-1>}$ ，这被称为窥视孔连接（Peephole Connection)。这时，和 GRU 不同， $c^{<t-1>}$ 和门值是一对一的。

c0 常被初始化为零向量。