lstm不收敛_RNN和LSTM有长期记忆吗?华为诺亚方舟实验室与港大联合发表在ICML2020的论文将为你揭开谜底...

引言

为了克服递归网络(RNN)学习长期依赖的困难,长短期记忆(LSTM)网络于1997年被提出并后续在应用方面取得了重大进展。大量论文证实了LSTM的实用性并试图分析其性质。而“RNN和LSTM是否具有长期记忆?”这个问题依然缺少答案。本论文从统计学的角度回答了这一问题,证明了RNN和LSTM在做时间序列的预测时不具备统计意义上的长期记忆。统计学已有的对于长期记忆的定义并不适用于神经网络,于是我们提出了一个对于神经网络适用的新定义,并利用新定义再次分析了RNN和LSTM的理论性质。为了验证我们的理论,我们对RNN和LSTM进行了最小程度的修改,将他们转换为长期记忆神经网络,并且在具备长期记忆性质的数据集上验证了它们的优越性。

相关背景

尽管在深度学习领域,长期记忆这个词经常在LSTM的应用中被提到,但是并没有严格的定义。而在统计领域,对于长期记忆的严格定义很早就有了。对于一个二阶平稳的一维时间序列2211691b5cf30d2e47a8848231c728ef.png,记它的自协方差函数为5fdcd20a774311a769ae6e615cf637e3.png

。那么如果 8f0f1ba5ad4189953622605e4b564040.png 不可和,则 248289a23173bf6b411e4280c4d61ca8.png 具有长期记忆;如果 e2aa4a610d5454f8d0c1294a24ccb07d.png 可和,则 9742d6b5d6e40197ada05f3d3ecd9b56.png 具有短期记忆。除了自协方差函数之外,还可以等价地用谱密度函数来定义长期或短期记忆。更严谨的表述见下图中定义一。 69488fbd0918d5fea910407b3bab6087.png

符合长期记忆定义的一种最常见的时间序列模型就是分数差分过程(fractionally integrated process)。在时间序列分析中,时间序列的简写一般会使用后移运算符(backshift operator)3c7410da9b484cd6723bc8211539f803.png。当3c7410da9b484cd6723bc8211539f803.png作用于时间序列中的一个随机变量e6eebe2c27dbfad217fbf39a55ddd340.png时,会获得前一时刻的随机变量5a649e07c79a947c95f893f1cc810708.png,即acbf1c45e0a87989e79bd30273231d7e.png。后移运算符3c7410da9b484cd6723bc8211539f803.png的运算与一个代数变量的运算非常相似,例如

387e63e2b7820422bf2f0dbadfb7e924.png 。利用后移运算符,一个分数差分过程 5a945eddc905723a35f6b5b1d1aea249.png 可以很方便地写作

9995041fdb62ea6f0171268ca99d5f9d.png

其中

4c33fd9058eaddb5179529e3572c0ed1.png

d2b51ae52dced10992f411ae218d11e4.png 是Gamma函数,  66ecced2cfcee40ad176f59bb2bc5ab4.png 是分数差分模型的记忆参数。一般 a838186a1d3314452e84d432e1aae750.png 会被选取为一个自回归滑动平均模型(Autoregressive moving-average model,简称ARMA模型),此时 bcb70cd16f1b402898c3684ff3dfc0ac.png 服从分数差分整合移动平均自回归模型(Autoregressive fractionally-integrated moving-average model,简称ARFIMA模型)。一个ARFIMA模型中的ARMA部分负责对短期记忆的规律进行建模,而分数差分的参数 8b4deda80b9985f07de622d8c822fc41.png 则负责对长期记忆的规律进行建模。 长期记忆对于多维度的时间序列来说并没有唯一的定义。我们选择了一种简单直接的方式来定义多维时间序列的长期记忆,那就是检查时间序列的各个维度是否具有长期记忆,忽略不同维度之间的长期相关性。每个维度 6d4157e8b233f4ceb60810d886853dde.png 都有一个记忆参数 bedc3c9fe9d26fafac406f5ef76b6104.png 来对该维度进行建模。多维度时模型的简写见(4)式。

452ecf97fc375d21d7ec5552fd963263.png

ARFIMA模型是本文的重要灵感来源之一。它的一些重要性质包括:

  •  4a687639ba5d1ca3e78b6faca93a685c.png在-0.5到0.5之间时,模型是平稳的,4a687639ba5d1ca3e78b6faca93a685c.png大于0.5时,模型非平稳; 

  • 对于平稳模型来说,4a687639ba5d1ca3e78b6faca93a685c.png小于0时模型具有短期记忆,而4a687639ba5d1ca3e78b6faca93a685c.png大于0时,模型具有长期记忆,且4a687639ba5d1ca3e78b6faca93a685c.png的值越大,记忆效果越长;

  • (3)式中的系数,随9c3efbd62aae0ada09b12f0ff42207d7.png的增大,以多项式速率衰减,即95500c0084a9d996748b1f3a02c61ba5.png

  • ec5bd68b7d33b46988a3a05757b5a3cd.png的自协方差函数以多项式速率衰减。

以多项式速率衰减的系数或者自协方差函数是ARFIMA模型区别于短期记忆模型的一大特点。具有短期记忆的模型的系数或者自协方差函数都是以指数速率衰减的,所以过去的信息丢失得非常快。结合定义一来看,多项式速率衰减的序列在指数小于-1时是不可和的,而指数速率衰减的序列总是可和的,所以自协方差函数属于前者则模型具备长期记忆,属于后者则模型不具备长期记忆。本文也是利用衰减速率来证明RNN和LSTM的记忆性质的。

在证明模型的自协方差函数衰减速率时,我们借助了几何遍历性这一性质来辅助证明,具体定义见下图。一个具有几何遍历性的马尔科夫链在70c792a46ffa00813b824d73436b82e8.png步后的条件分布f8141b4689d59d8618d2609882f414e5.png,随着70c792a46ffa00813b824d73436b82e8.png的增大以指数速率收敛向平稳分布5160df2517f6f0b25645bf9cf78fd47a.png。这意味着马尔科夫链“现在处在fbae81b58a5065a454a8384dd48976ca.png状态”的这个信息以指数速率丢失了。几何遍历性意味着自协方差函数以指数速率收敛为0,意味着随机过程不具有长期记忆。

8f2e844686c4f1320170b52e917602dc.png

递归网格的记忆性质

假设一个递归网络的输入为 9bece5045ffef09f41092550aa3cab99.png ,输出为 ef6007cc07e3013b23976f48694d9662.png ,以及目标序列为 826f88923617a5aeefcdf23263f00678.png 。其中, 9e4e1adbf7dda32f07b57bf6a44d56a2.png 来自模型

a6cf9a5583566799c006c833a81ef003.png

36712681833f67b687fd0d167259161a.png是独立一致分布的白噪声。这一节的理论结果建立在无外生变量的时间序列预测的条件下,即bff76ba646b58a407992ae7ef246e7ad.png。考虑一个泛指的隐层状态427622b161d341975f8c9dfd8de913d2.png,那么一个递归网络可以写成马尔科夫链的形式,见(7)式。

5a630df2f34e2af1ca4ad1abf6996ddd.png

如果转移函数f7135f5fe92f2af1d0b636439de465c2.png是线性的,那么(7)式成为一个线性马尔科夫链

0fcd3d5e7b2904274cbd7cca97d30952.png

(7)式所表达的马尔科夫链其实包含了RNN或者LSTM。

例如,最基本的RNN,使用2-范数损失函数时,模型的前馈计算如(9)式

acf2d4518b7bfecb1033a9aa3751ba83.png

其中f7c58bd2197824e979fe9b08f555d7d9.png是输出函数,5776ccbb29dccab13af96f2dfcb1ee8f.png是激活函数。这个RNN可以写成(7)式中的马尔科夫链的形式

db629e950d397ace4989e47971d413a9.png

其中 c210e0bb7411700de8fcc59fb80e6beb.png 就是RNN原本的隐藏层单元,以及转移函数的具体形式为

c0da7301e0781f2e1520cff67387d2aa.png

又例如,基本的LSTM网络,前馈过程为

0f25fd09e2682d743b4fce39412a0732.png

隐藏层单元8075f948ae5bd5db89658f014146ebb3.png的计算涉及如下门运算

1519c805de4ffad3dc7d61ea841a4526.png

其中, 9dd8f18478d87569eaf2ab1e05af6dcd.png 是输出函数, 5223e3a154a41b3dae799622b94c4dd9.png 是sigmoid激活函数,tanh是双曲正切激活函数。这个LSTM过程也可以写成(7)式的形式

20438cfcf284daff34458d1a07bdc2ca.png

不过在LSTM中,隐藏层单元c1250f9b095d490595f0f55c2d2b8b24.png和单元状态f549487f7f8441d69b432fcd1086fcd6.png一起对应(7)中的泛指隐层单元0800f3757abfa603bd74c253f210c5f5.png。转移函数c0fd5e3552947a0ae992242127c0d640.png的形式较为复杂,就不在这里展示了。

补充两点技术性的假设(下图,假设一)之后,我们得到了本文的两个主要结论。定理一提供了递归网络(7)具有短期记忆的一个充分条件,定理二提供了线性递归网络(8)具有短期记忆的充分必要条件。这些条件是施加在转移函数或者转移矩阵上的,所以对于满足式(7)的递归网络模型均成立,包括RNN和LSTM。

6245a8c12ee8b0fd738f318250f38216.png

定理一还比较抽象,转移函数上的条件,并不能直观地转换成在网络里的权重和激活函数上的条件。于是我们又进一步提出了推理一和推理二。推理一证明了,只要RNN的输出和激活函数是连续且有界的,那么RNN就具有短期记忆,如下图。

644e297e34f6b6163cb9d9689a3b3fdd.png

而推理二提出了LSTM具有短期记忆的充分条件。一个是输出函数上的条件,目前常用的线性、ReLU、sigmoid或者tanh等输出函数均满足要求;另一个是要求遗忘门的输出严格小于1。推理二从侧面反映了LSTM的遗忘门是LSTM的记忆性质的关键。

c68836393fccd8f38d767bb79d29f95d.png

以上理论结果建立在无外生变量的前提下,而神经网络在具体应用中是可以带有外部变量进行运算的。外部变量若本身就带有长期记忆性质,会干扰我们对于神经网络记忆性质的分析,所以有外部变量时无法使用现有的统计学上对于长期记忆性质的定义。为了填补这一缺口,我们提出了一种对于神经网络适用的新的长期记忆的定义。假设神经网络可以写成(或近似成)下列形式

72dd8b12e5a6a5c2609263e95baf92a0.png

那么如果系数矩阵存在一个维度以多项式速率衰减,则认为网络具有长期记忆。具体表述见定义三。

f279047cd89e414005a1019f4db111cb.png

长期记忆递归网格及其性质

根据上述理论成果,我们想对RNN和LSTM做出最小程度的修改,使其获得对长期相关性建模的能力。类似于ARFIMA模型中的结构,我们给RNN和LSTM在不同位置添加了一个长期记忆滤波器,分别得到记忆增强RNN(Memory-augmented RNN,简称MRNN模型)和记忆增强LSTM模型(Memory-augmented LSTM,简称MLSTM模型)。

长期记忆滤波器的具体形式为

e0715a06bbaad2ae04547a2a94cf3a32.png

MRNN网络结构的图例为

3233e086989a4cfe0e073103bee168b0.png

其中长期记忆隐层单元 398046059b757c79434a17928612d7d4.png 是与普通隐层单元 f9e7d305e78385b5d0ae647437c3f6f1.png 并列运作的新隐层单元, a444065e43f089230352962e10cb1da7.png 负责捕捉长期记忆的信息,而 cb2c010a8c893b57b7b2ac0067a28b7b.png 负责对短期的信息进行建模。 aecbce20cf56b59369545c1073ea9ab4.png 的具体计算如下

7d7794d4e54b8bbe336cf52dcb3b9603.png

而MRNN整体的向前传输过程可以写作

f28669df97ae04eae849918229f20426.png

为了分析理论性质,我们需要对模型进行一定的化简。我们把固定3a38d5a9aaa05265bcd49c9a2f61d5be.png的模型称为MRNNF模型,其中的记忆参数4a7eecc8ebb07e5ea469c2d35af52245.png是不随时间变化的。那么对于MRNNF模型,我们分析得到了如下的性质,即MRNNF满足定义三,具有长期记忆,而RNN依然不具有长期记忆。

a134935099f73432303adcd74521c26e.png

对LSTM的修改,我们将长期记忆滤波器加在了单元状态上,因为LSTM原本的单元状态服从一个动态系数AR(1)模型

bab129ce7d1c492767214b632cfdb62b.png

所以我们很自然地把这里的状态更新加上了长期记忆滤波器,得到

26feb0e8b299575d688b2088ca6d446f.png

MSLTM网络结构的图例为

e25c9aee86bf089e583e257e1c2f908e.png

向前传播过程为

a71906dc54267ad54d535362b961a35a.png

bb1f1957db13497b46002473b7808b60.png

直接分析MLSTM是否满足定义三依然有难度,于是类比MRNNF我们做了类似的化简,假设所有的门不随时间变化。那么门不随时间变化的LSTM不具备长期记忆,而门不随时间变化的MLSTM(简称MLSTMF)具有长期记忆。注意这里并不能做出LSTM没有长期记忆的结论,只能侧面推出LSTM的门运算在LSTM的记忆性质中扮演了重要的角色。

实验结果

我们做了三个实验,一是在具有长期记忆性质的数据集上验证新提出的模型的优势,二是验证新提出的模型在只具有短期记忆性质的数据集上表现不会劣化,三是探究长期记忆滤波长度ea193cb9f30607c4073547212562e3ca.png这一超参数对模型表现的影响。

我们首先选用了四个具有长期记忆性质的数据集用于时间序列预测任务:由ARFIMA模型生成的序列,道琼斯股指的收益,明尼阿波利斯的地铁人流量数据,以及树的年轮宽度数据。这些数据集的长期记忆性质可以通过画样本的自相关函数来判断,比如下图中的自相关函数有很长的趋势,与白噪声序列明显不同,直观说明了数据带有长期记忆。

a82f359cd14ec965ae9134c1fbb6f1f1.png

我们比较了八个模型:

1.  原始RNN,lookback = 1;

2.  双轨RNN(类似MRNN),但是滤波器部分不加限制,有e46c9f8b4d2859cca185861dac18b9b7.png个自由权重;

3.  Recurrent weighted average network (RWA);

4.  MRNNF,即记忆参数6d2d2216cbb795d114734bc574dcbb03.png不随时间变化;

5.  MRNN,即记忆参数6d2d2216cbb795d114734bc574dcbb03.png随时间变化;

6.  原始LSTM;

7.  MLSTMF,即记忆参数6d2d2216cbb795d114734bc574dcbb03.png不随时间变化;

8.  MLSTM,即记忆参数 6d2d2216cbb795d114734bc574dcbb03.png 随时间变化。 由于这些网络的训练是非凸问题,我们用不同的种子初始化模型会学到不同的模型,所以我们使用了100个不同的种子,并报告时间序列预测任务的误差度量的均值,标准差,以及最小值。 误差的均值和标准差见表2,最小值见表3。

a990a5fda2f3c754e9b23fe8b44b7db3.png

50b4ee90a16cc6712193ec11e8a961e5.png

我们将100个随机数种子学出来的100个模型的表现画了boxplot,例子见图4。用两样本c6d4f98544d2d31ae7099dcf99434cf6.png-检验对比MRNN和RNN / LSTM的表现,结论显示MRNN的优势是显著的。

b97580c9e2d28c7c63e008a3364dec93.png

此外,我们还在西班牙语论文评议数据集上测试了我们提出的长期记忆模块在多层神经网络中的应用。为了提升效率,我们固定了记忆参103f544eb98e1030a42cf319448c4181.png不随时间变化,设置滤波长度35810d02adf15c3e4592bd92ad18777d.png为50,且只在第一层使用带滤波器的结构。网络的第二层统一为LSTM单元,对比结果如下。虽然MLSTM和MLSTMF在时间序列预测数据集上优势不明显,但是在这个自然语言处理的分类任务上,优势则很明显了。用两样本c6d4f98544d2d31ae7099dcf99434cf6.png-检验对比MLSTMF和RNN/LSTM的准确率,p-value均小于0.05。

9f956a5325156eb03499189f89e7d1b7.png

第二个实验,我们用RNN生成了数据,并用8个模型去做预测,结果如下图。除了新模型方差略微变大之外,并没有明显劣势。说明我们的新模型也适用于长短期记忆混合的数据集。

47ba6143082973be3f1f179beb2ff908.png

而第三个实验中我们探究了超参数 4a154dcf748c8860298e9e2a8228bf1c.png 对于模型表现的影响。实验选取了 3788e03b8c3f7e5413388fae956525e4.png 和100四种情况进行对比。结论是MRNN在 1e4c4536917b9e482da5ae54f20de4d4.png 时表现最好,而MLSTM在 8b8cd585ce303fb6a220e309f3ed4c3e.png 时表现最好,我们推测可能是由于MLSTM模型较大难以训练造成的。

cfa2f6cf352b93dae8cf0dc0eeef5eaa.png

结语

本文首先从时间序列的角度证明RNN和LSTM没有长期记忆。通过使用分数整合过程中的滤波器结构,我们对RNN和LSTM做出了相应的修改,使得它们可以处理带有远程依赖的数据。在时间序列预测任务中,MRNN和MRNNF在各个数据集上都展现出了优势,而MLSTM和MLSTMF的性能与原始LSTM相当,并受到滤波长度 1a7c2839414d722c2bda9939043e87f3.png 的影响。而在论文评议分类任务中,MLSTMF搭配LSTM的双层网络的表现显著好于两层LSTM的网络。 在将来的工作中,我们可以继续探究类似的滤波器是否可以为其他递归网络或前馈网络带来类似的优势。此外,与其他模型相比,具有动态 0f4ac938df03ed1b7a6f80669f2e2d63.png 的MRNN和MLSTM计算开销较大,将来可以探究模型的进一步化简,和探索更快的优化方法。最后,根据定义3,我们还可以尝试许多其他信息衰减模式来对长期记忆序列进行建模。例如,我们可以直接让滤波器的权重 577c0953c2088143a2f889110e80eeb9.png

—  —

欢迎有才华的您与我们一起,迎接人工智能的大航海时代!

诺亚方舟实验室(Noah's Ark Lab是华为公司从事人工智能基础研究的实验室,致力于推动人工智能领域的技术创新和发展,并为华为公司的产品和服务提供支撑。

简历投递:请发送简历至Noahlab@huawei.com,邮件标题“应聘职位+姓名”

— Welcome Aboard!—

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值