RECURRENT NEURAL NETWORK REGULARIZATION-笔记

最新推荐文章于 2024-01-09 00:56:16 发布

加油当当

最新推荐文章于 2024-01-09 00:56:16 发布

阅读量1.5k

点赞数

分类专栏：神经网络经典论文解读文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/jiayoudangdang/article/details/114189083

版权

神经网络经典论文解读专栏收录该内容

16 篇文章 3 订阅

订阅专栏

RECURRENT NEURAL NETWORK REGULARIZATION

0 摘要

我们为带有长短期记忆（LSTM）unit的递归神经网络（RNN）提供了一种简单的正则化技术。 Dropout是用于规范化神经网络的最成功技术，不适用于RNN和LSTM。在本文中，我们展示了如何正确地将缺失应用于LSTM，并表明它显着减少了在各种任务上的过度拟合。这些任务包括语言建模，语音识别，图像标题生成和机器翻译。

1 介绍

递归神经网络（RNN）是一种神经序列模型，可在重要任务上达到最先进的性能，这些任务包括语言建模Mikolov（2012），语音识别Graves等。（2013），以及机器翻译Kalchbrenner＆amp; Blunsom（2013）。众所周知，神经网络的成功应用需要良好的正则化。不幸的是，dropout Srivastava（2013）是前馈神经网络最强大的正则化方法，不适用于RNN。结果，RNN的实际应用经常使用过小的模型，因为大型RNN往往会过拟合。现有的正则化方法对RNN的Graves（2013）的改进相对较小。在这项工作中，我们证明了正确使用落差可以大大减少LSTM中的过拟合，并针对三个不同的问题对其进行评估。

这项工作的代码可以在https://github.com/wojzaremba/lstm中找到。

2 相关工作

Dropout Srivastava（2013）是最近推出的一种正则化方法，在前馈神经网络方面非常成功。虽然许多工作以各种方式延长了dropout时间Wang & Manning（2013）；Wan等人（2013），但将其应用于RNN的研究相对较少。拜耳等人（2013年）就这一主题发表了唯一一篇论文，他关注的是边缘化dropout Wang & Manning（2013年），这是标准dropout的无噪音确定性近似。拜耳等人（2013年）声称，传统的dropout对RNN不起作用，因为复发会放大噪声，进而损害学习。在这项工作中，我们证明了这个问题可以通过对RNNs连接的某个子集应用dropout来解决。因此，RNN现在也可以从dropout中受益。

独立于我们的工作，Pham等。（2013年）开发了完全相同的RNN正则化方法，并将其应用于手写识别。我们重新发现了这种方法，并针对许多问题展示了强大的经验结果。将dropout应用于LSTM的其他工作是Pachitariu＆amp; 萨哈尼（2013）。

有许多RNN的体系结构变体在解决长期依赖性问题上表现得更好Hochreiter & Schmidhuber（1997）；Graves et al.（2009）；Cho et al.（2014）；Jaeger et al.（2007）；Koutnık et al.（2014）；Sundermeyer et al.（2012）。在这项工作中，我们将展示如何正确地将dropout应用到LSTMs（最常用的RNN变体）；这种应用dropout的方法可能也适用于其他RNN体系结构。

本文主要研究语言建模、语音识别和机器翻译。语言建模是RNNs取得重大成功的第一个任务，Mikolov等人（2010；2011）；Pascanu等人（2013）。RNN还被成功地用于语音识别Robinson等人（1996）；Graves等人（2013），最近被应用于机器翻译，Devlin等人（2014）；Kalchbrenner&Blusom（2013）；Cho等人（2014）；Chow等人（1987）；Mikolov等人（2013年）。

3 REGULARIZING RNNS WITH LSTM CELLS

在本节中，我们将介绍深度LSTM（第3.1节）。接下来，我们展示如何对其进行正则化（第3.2节），并解释为什么我们的正则化方案有效。

我们让下标表示时间步长，上标表示层。我们所有的状态都是n维的。令hlt∈Rn为时间步t中层l中的隐藏状态。此外，令Tn，m：为仿射变换（对于某些W和b，为Wx+b）。令其为逐元素乘法，并令h0t为时间步长k的输入字向量。我们使用激活hLt来预测yt，因为L是我们深层LSTM中的层数。

3.1 LONG-SHORT TERM MEMORY UNITS

可以使用从先前的隐藏状态到当前隐藏状态的确定性转换来描述RNN动力学。确定性状态转换是一个函数。

对于经典RNN，此函数由下式给出：

LSTM具有复杂的动态特性，可以轻松地在较长的时间步长内存储信息。长期存储器存储在存储unit的向量中。尽管许多LSTM体系结构的连接结构和激活功能各不相同，但是所有LSTM体系结构都具有显式的存储unit，用于长时间存储信息。LSTM可以决定覆盖存储unit，对其进行检索或将其保留用于下一个步骤。实验中使用的LSTM体系结构由下列方程式Graves等给出。（2013）：

在这些方程式中，sigm和tanh是逐元素应用的。图1说明了LSTM方程。

图1：本文中使用的LSTM存储器unit的图形表示（与Graves（2013）相比，存在细微差异）。

3.2 REGULARIZATION WITH DROPOUT

本文的主要贡献是一种以成功减少过度拟合的方式将dropout应用于LSTM的方法。主要思想是仅将Dropout运算符应用于非经常性连接（图2）。以下等式对其进行了更精确的描述，其中D是将其参数的随机子集设置为零的dropout运算符。

图2：正规化的多层RNN。虚线箭头表示在其中应用了dropout的连接，实线表示在其中没有应用dropout的连接。

我们的方法如下。dropout运算符破坏了unit所携带的信息，迫使它们更加健壮地执行其中间计算。同时，我们不想删除unit中的所有信息。这些unit记住过去许多时间步长发生的事件，这一点尤其重要。图3显示了在我们实现dropout的过程中，信息如何从时间步t-2发生的事件流向时间步t + 2的预测。我们可以看到，dropout操作者完全破坏了信息L+1次，并且该数目与信息所遍历的时间步长无关。标准dropout会干扰循环连接，这使得LSTM很难学会长时间存储信息。通过不在循环连接上使用dropout，LSTM可以从dropout正则化中受益，而不会牺牲其宝贵的记忆能力。

4 实验

我们在三个领域中展示了结果：语言建模（第4.1节），语音识别（第4.2节），机器翻译（第4.3节）和图像标题生成（第4.4节）。

4.1 LANGUAGE MODELING

我们在Penn树库（PTB）数据集Marcus等人上进行了字级预测实验。（1993），由929k训练词，73k验证词和82k测试词组成。它的词汇量为1万个单词。我们从Tomas Mikolov的网页下载了它。我们训练了两种大小的正规化LSTM。这些分别表示为中级LSTM和大型LSTM。两个LSTM都有两层，展开了35个步骤。我们将隐藏状态初始化为零。然后，我们将当前微型批次的最终隐藏状态用作后续微型批次的初始隐藏状态（连续的微型批次顺序遍历训练集）。每个小批量的大小为20。

LSTM介质每层有650个单位，其参数在[0.05，0.05]中统一初始化。如前所述，我们在非经常性连接上施加50％的dropout。我们为LSTM训练了39个时期，学习率为1，在6个时期之后，我们将LSTM在每个时期减少1.2倍。我们将梯度的范数（通过最小批量大小标准化）裁剪为5。使用NVIDIA K20 GPU训练该网络大约需要半天。

大型LSTM每层具有1500个单位，并且其参数在[0.04，0.04]中统一初始化。我们对非经常性连接应用65％的dropout率。我们以55个时期训练模型，学习率为1；在14个时期之后，我们开始在每个时期之后将学习率降低1.15倍。我们在10 Mikolov等人处裁剪了梯度的范数（通过小批量大小标准化）。（2010）。在NVIDIA K20 GPU上训练该网络需要一整天的时间。

为了进行比较，我们训练了一个非正规网络。我们优化了其参数以获得最佳的验证性能。缺少正则化有效地限制了网络的大小，由于较大的网络过度拟合，迫使我们使用小型网络。我们性能最好的非正规LSTM具有两个隐藏层，每层200个单位，并且其权重统一以[0.1，0.1]进行初始化。我们将其训练为4个时期，学习率为1，然后在每个时期之后将学习率降低2倍，总共进行了13个训练时期。每个小批量的大小为20，我们将网络展开20个步骤。在NVIDIA K20 GPU上训练网络需要2-3个小时。

表1将以前的结果与我们的LSTM进行了比较，图4显示了从单个大型正则化LSTM中提取的样本。

4.2 SPEECH RECOGNITION

深度神经网络已经用于声学建模已有半个多世纪了（有关很好的综述，请参见Bourlard＆amp; Morgan（1993））。声学建模是将声学信号映射到单词序列的关键组成部分，因为它建模p（st | X），其中st是时间t的语音状态，X是声学观察。最近的工作表明，LSTM在声学建模方面可以实现出色的性能Sak等。（2014年），相对较小的LSTM（就其参数数量而言）很容易过拟合训练集。衡量声学模型性能的有用指标是帧精度，它是在所有时间步长t的每个st处测量的。通常，此度量与实际关注的度量（字错误率（WER））相关。

由于计算WER涉及使用语言模型并针对声学模型中的每个更改调整解码参数，因此我们决定在这些实验中着重于帧精度。表2显示，丢弃可以提高LSTM的帧精度。不足为奇的是，训练帧的准确性会因训练期间添加的噪声而下降，但与掉落的情况一样（通常是这样），这样得出的模型可以更好地推广到看不见的数据。请注意，测试集比训练集更容易，因为它的准确性更高。我们在内部Google Icelandic Speech数据集上报告了LSTM的性能，该数据集相对较小（发声量为93k），因此过拟合是一个很大的问题。

4.3 MACHINE TRANSLATIO

我们将机器翻译问题表述为语言建模任务，其中训练了LSTM以将高概率分配给源句子的正确翻译。因此，对LSTM进行了源语句及其翻译的级联训练Sutskever等。（2014）（另请参阅Cho等人（2014））。我们通过使用大小为12的波束的简单波束搜索，通过近似最可能的单词序列来计算翻译。在Schwenk（2014）的选定子集上，在WMT 14英语到法语数据集上运行了LSTM，该子集具有340M法语单词和304M英语单词。我们的LSTM有4个隐藏层，其层和单词嵌入都有1000个单位。它的英语词汇量为160,000个单词，而其法语词汇量为80,000个单词。最佳dropout概率为0.2。表3显示了经过和未经过dropout训练的LSTM的性能。虽然我们的LSTM并没有击败基于短语的LIUM SMT系统Schwenk等。（2011），我们的结果表明，dropout提高了LSTM的翻译性能。

4.4 IMAGE CAPTION GENERATION

我们将Dropout变体应用于Vinyals等人的图像标题生成模型。（2014）。图像标题的生成与Sutskever等人的序列到序列模型相似。（2014），但其中将输入图像通过高精度的预训练卷积神经网络映射到向量上（Szegedy等，2014），然后将其转换为具有单层LSTM的标题（请参见Vinyals等）等（2014年）了解该架构的详细信息）。我们在LSTM上测试了我们的dropout方案，因为卷积神经网络没有在图像标题数据集上训练，因为它不大（MSCOCO（Lin等人，2014））。

下表4总结了我们的结果。总而言之，dropout相对于不使用dropout有所帮助，但是使用集成可以消除dropout所带来的收益。因此，在这种情况下，dropout的主要作用是产生一个与集合一样好的单个模型，考虑到该技术的简单性，这是一个合理的改进。

5 CONCLUSION

我们提出了一种将遗漏应用于LSTM的简单方法，该方法导致针对不同领域中若干问题的性能大幅提高。我们的工作使辍学对于RNN有用，我们的结果表明，实施辍学可以提高各种应用程序的性能。