引言
为了克服递归网络(RNN)学习长期依赖的困难,长短期记忆(LSTM)网络于1997年被提出并后续在应用方面取得了重大进展。大量论文证实了LSTM的实用性并试图分析其性质。而“RNN和LSTM是否具有长期记忆?”这个问题依然缺少答案。本论文从统计学的角度回答了这一问题,证明了RNN和LSTM在做时间序列的预测时不具备统计意义上的长期记忆。统计学已有的对于长期记忆的定义并不适用于神经网络,于是我们提出了一个对于神经网络适用的新定义,并利用新定义再次分析了RNN和LSTM的理论性质。为了验证我们的理论,我们对RNN和LSTM进行了最小程度的修改,将他们转换为长期记忆神经网络,并且在具备长期记忆性质的数据集上验证了它们的优越性。
相关背景
尽管在深度学习领域,长期记忆这个词经常在LSTM的应用中被提到,但是并没有严格的定义。而在统计领域,对于长期记忆的严格定义很早就有了。对于一个二阶平稳的一维时间序列,记它的自协方差函数为
![8f0f1ba5ad4189953622605e4b564040.png](https://img-blog.csdnimg.cn/img_convert/8f0f1ba5ad4189953622605e4b564040.png)
![248289a23173bf6b411e4280c4d61ca8.png](https://img-blog.csdnimg.cn/img_convert/248289a23173bf6b411e4280c4d61ca8.png)
![e2aa4a610d5454f8d0c1294a24ccb07d.png](https://img-blog.csdnimg.cn/img_convert/e2aa4a610d5454f8d0c1294a24ccb07d.png)
![9742d6b5d6e40197ada05f3d3ecd9b56.png](https://img-blog.csdnimg.cn/img_convert/9742d6b5d6e40197ada05f3d3ecd9b56.png)
![69488fbd0918d5fea910407b3bab6087.png](https://img-blog.csdnimg.cn/img_convert/69488fbd0918d5fea910407b3bab6087.png)
符合长期记忆定义的一种最常见的时间序列模型就是分数差分过程(fractionally integrated process)。在时间序列分析中,时间序列的简写一般会使用后移运算符(backshift operator)。当
作用于时间序列中的一个随机变量
时,会获得前一时刻的随机变量
,即
。后移运算符
的运算与一个代数变量的运算非常相似,例如
![387e63e2b7820422bf2f0dbadfb7e924.png](https://img-blog.csdnimg.cn/img_convert/387e63e2b7820422bf2f0dbadfb7e924.png)
![5a945eddc905723a35f6b5b1d1aea249.png](https://img-blog.csdnimg.cn/img_convert/5a945eddc905723a35f6b5b1d1aea249.png)
![d2b51ae52dced10992f411ae218d11e4.png](https://img-blog.csdnimg.cn/img_convert/d2b51ae52dced10992f411ae218d11e4.png)
![66ecced2cfcee40ad176f59bb2bc5ab4.png](https://img-blog.csdnimg.cn/img_convert/66ecced2cfcee40ad176f59bb2bc5ab4.png)
![a838186a1d3314452e84d432e1aae750.png](https://img-blog.csdnimg.cn/img_convert/a838186a1d3314452e84d432e1aae750.png)
![bcb70cd16f1b402898c3684ff3dfc0ac.png](https://img-blog.csdnimg.cn/img_convert/bcb70cd16f1b402898c3684ff3dfc0ac.png)
![8b4deda80b9985f07de622d8c822fc41.png](https://img-blog.csdnimg.cn/img_convert/8b4deda80b9985f07de622d8c822fc41.png)
![6d4157e8b233f4ceb60810d886853dde.png](https://img-blog.csdnimg.cn/img_convert/6d4157e8b233f4ceb60810d886853dde.png)
![bedc3c9fe9d26fafac406f5ef76b6104.png](https://img-blog.csdnimg.cn/img_convert/bedc3c9fe9d26fafac406f5ef76b6104.png)
ARFIMA模型是本文的重要灵感来源之一。它的一些重要性质包括:
在-0.5到0.5之间时,模型是平稳的,
大于0.5时,模型非平稳;
对于平稳模型来说,
小于0时模型具有短期记忆,而
大于0时,模型具有长期记忆,且
的值越大,记忆效果越长;
(3)式中的系数,随
的增大,以多项式速率衰减,即
;
的自协方差函数以多项式速率衰减。
在证明模型的自协方差函数衰减速率时,我们借助了几何遍历性这一性质来辅助证明,具体定义见下图。一个具有几何遍历性的马尔科夫链在步后的条件分布
,随着
的增大以指数速率收敛向平稳分布
。这意味着马尔科夫链“现在处在
状态”的这个信息以指数速率丢失了。几何遍历性意味着自协方差函数以指数速率收敛为0,意味着随机过程不具有长期记忆。
递归网格的记忆性质
假设一个递归网络的输入为![9bece5045ffef09f41092550aa3cab99.png](https://img-blog.csdnimg.cn/img_convert/9bece5045ffef09f41092550aa3cab99.png)
![ef6007cc07e3013b23976f48694d9662.png](https://img-blog.csdnimg.cn/img_convert/ef6007cc07e3013b23976f48694d9662.png)
![826f88923617a5aeefcdf23263f00678.png](https://img-blog.csdnimg.cn/img_convert/826f88923617a5aeefcdf23263f00678.png)
![9e4e1adbf7dda32f07b57bf6a44d56a2.png](https://img-blog.csdnimg.cn/img_convert/9e4e1adbf7dda32f07b57bf6a44d56a2.png)
是独立一致分布的白噪声。这一节的理论结果建立在无外生变量的时间序列预测的条件下,即
。考虑一个泛指的隐层状态
,那么一个递归网络可以写成马尔科夫链的形式,见(7)式。
如果转移函数是线性的,那么(7)式成为一个线性马尔科夫链
(7)式所表达的马尔科夫链其实包含了RNN或者LSTM。
例如,最基本的RNN,使用2-范数损失函数时,模型的前馈计算如(9)式其中是输出函数,
是激活函数。这个RNN可以写成(7)式中的马尔科夫链的形式
![c210e0bb7411700de8fcc59fb80e6beb.png](https://img-blog.csdnimg.cn/img_convert/c210e0bb7411700de8fcc59fb80e6beb.png)
又例如,基本的LSTM网络,前馈过程为
隐藏层单元的计算涉及如下门运算
![9dd8f18478d87569eaf2ab1e05af6dcd.png](https://img-blog.csdnimg.cn/img_convert/9dd8f18478d87569eaf2ab1e05af6dcd.png)
![5223e3a154a41b3dae799622b94c4dd9.png](https://img-blog.csdnimg.cn/img_convert/5223e3a154a41b3dae799622b94c4dd9.png)
不过在LSTM中,隐藏层单元和单元状态
一起对应(7)中的泛指隐层单元
。转移函数
的形式较为复杂,就不在这里展示了。
定理一还比较抽象,转移函数上的条件,并不能直观地转换成在网络里的权重和激活函数上的条件。于是我们又进一步提出了推理一和推理二。推理一证明了,只要RNN的输出和激活函数是连续且有界的,那么RNN就具有短期记忆,如下图。
而推理二提出了LSTM具有短期记忆的充分条件。一个是输出函数上的条件,目前常用的线性、ReLU、sigmoid或者tanh等输出函数均满足要求;另一个是要求遗忘门的输出严格小于1。推理二从侧面反映了LSTM的遗忘门是LSTM的记忆性质的关键。
以上理论结果建立在无外生变量的前提下,而神经网络在具体应用中是可以带有外部变量进行运算的。外部变量若本身就带有长期记忆性质,会干扰我们对于神经网络记忆性质的分析,所以有外部变量时无法使用现有的统计学上对于长期记忆性质的定义。为了填补这一缺口,我们提出了一种对于神经网络适用的新的长期记忆的定义。假设神经网络可以写成(或近似成)下列形式
那么如果系数矩阵存在一个维度以多项式速率衰减,则认为网络具有长期记忆。具体表述见定义三。
长期记忆递归网格及其性质
根据上述理论成果,我们想对RNN和LSTM做出最小程度的修改,使其获得对长期相关性建模的能力。类似于ARFIMA模型中的结构,我们给RNN和LSTM在不同位置添加了一个长期记忆滤波器,分别得到记忆增强RNN(Memory-augmented RNN,简称MRNN模型)和记忆增强LSTM模型(Memory-augmented LSTM,简称MLSTM模型)。
长期记忆滤波器的具体形式为![398046059b757c79434a17928612d7d4.png](https://img-blog.csdnimg.cn/img_convert/398046059b757c79434a17928612d7d4.png)
![f9e7d305e78385b5d0ae647437c3f6f1.png](https://img-blog.csdnimg.cn/img_convert/f9e7d305e78385b5d0ae647437c3f6f1.png)
![a444065e43f089230352962e10cb1da7.png](https://img-blog.csdnimg.cn/img_convert/a444065e43f089230352962e10cb1da7.png)
![cb2c010a8c893b57b7b2ac0067a28b7b.png](https://img-blog.csdnimg.cn/img_convert/cb2c010a8c893b57b7b2ac0067a28b7b.png)
![aecbce20cf56b59369545c1073ea9ab4.png](https://img-blog.csdnimg.cn/img_convert/aecbce20cf56b59369545c1073ea9ab4.png)
而MRNN整体的向前传输过程可以写作
为了分析理论性质,我们需要对模型进行一定的化简。我们把固定的模型称为MRNNF模型,其中的记忆参数
是不随时间变化的。那么对于MRNNF模型,我们分析得到了如下的性质,即MRNNF满足定义三,具有长期记忆,而RNN依然不具有长期记忆。
对LSTM的修改,我们将长期记忆滤波器加在了单元状态上,因为LSTM原本的单元状态服从一个动态系数AR(1)模型
所以我们很自然地把这里的状态更新加上了长期记忆滤波器,得到
MSLTM网络结构的图例为
向前传播过程为
实验结果
我们做了三个实验,一是在具有长期记忆性质的数据集上验证新提出的模型的优势,二是验证新提出的模型在只具有短期记忆性质的数据集上表现不会劣化,三是探究长期记忆滤波长度这一超参数对模型表现的影响。
我们首先选用了四个具有长期记忆性质的数据集用于时间序列预测任务:由ARFIMA模型生成的序列,道琼斯股指的收益,明尼阿波利斯的地铁人流量数据,以及树的年轮宽度数据。这些数据集的长期记忆性质可以通过画样本的自相关函数来判断,比如下图中的自相关函数有很长的趋势,与白噪声序列明显不同,直观说明了数据带有长期记忆。
1. 原始RNN,lookback = 1;
2. 双轨RNN(类似MRNN),但是滤波器部分不加限制,有个自由权重;
3. Recurrent weighted average network (RWA);
4. MRNNF,即记忆参数不随时间变化;
5. MRNN,即记忆参数随时间变化;
6. 原始LSTM;
7. MLSTMF,即记忆参数不随时间变化;
![6d2d2216cbb795d114734bc574dcbb03.png](https://img-blog.csdnimg.cn/img_convert/6d2d2216cbb795d114734bc574dcbb03.png)
我们将100个随机数种子学出来的100个模型的表现画了boxplot,例子见图4。用两样本-检验对比MRNN和RNN / LSTM的表现,结论显示MRNN的优势是显著的。
此外,我们还在西班牙语论文评议数据集上测试了我们提出的长期记忆模块在多层神经网络中的应用。为了提升效率,我们固定了记忆参不随时间变化,设置滤波长度
为50,且只在第一层使用带滤波器的结构。网络的第二层统一为LSTM单元,对比结果如下。虽然MLSTM和MLSTMF在时间序列预测数据集上优势不明显,但是在这个自然语言处理的分类任务上,优势则很明显了。用两样本
-检验对比MLSTMF和RNN/LSTM的准确率,p-value均小于0.05。
第二个实验,我们用RNN生成了数据,并用8个模型去做预测,结果如下图。除了新模型方差略微变大之外,并没有明显劣势。说明我们的新模型也适用于长短期记忆混合的数据集。
![4a154dcf748c8860298e9e2a8228bf1c.png](https://img-blog.csdnimg.cn/img_convert/4a154dcf748c8860298e9e2a8228bf1c.png)
![3788e03b8c3f7e5413388fae956525e4.png](https://img-blog.csdnimg.cn/img_convert/3788e03b8c3f7e5413388fae956525e4.png)
![1e4c4536917b9e482da5ae54f20de4d4.png](https://img-blog.csdnimg.cn/img_convert/1e4c4536917b9e482da5ae54f20de4d4.png)
![8b8cd585ce303fb6a220e309f3ed4c3e.png](https://img-blog.csdnimg.cn/img_convert/8b8cd585ce303fb6a220e309f3ed4c3e.png)
结语
本文首先从时间序列的角度证明RNN和LSTM没有长期记忆。通过使用分数整合过程中的滤波器结构,我们对RNN和LSTM做出了相应的修改,使得它们可以处理带有远程依赖的数据。在时间序列预测任务中,MRNN和MRNNF在各个数据集上都展现出了优势,而MLSTM和MLSTMF的性能与原始LSTM相当,并受到滤波长度![1a7c2839414d722c2bda9939043e87f3.png](https://img-blog.csdnimg.cn/img_convert/1a7c2839414d722c2bda9939043e87f3.png)
![0f4ac938df03ed1b7a6f80669f2e2d63.png](https://img-blog.csdnimg.cn/img_convert/0f4ac938df03ed1b7a6f80669f2e2d63.png)
![577c0953c2088143a2f889110e80eeb9.png](https://img-blog.csdnimg.cn/img_convert/577c0953c2088143a2f889110e80eeb9.png)
— 完 —
欢迎有才华的您与我们一起,迎接人工智能的大航海时代!
诺亚方舟实验室(Noah's Ark Lab) 是华为公司从事人工智能基础研究的实验室,致力于推动人工智能领域的技术创新和发展,并为华为公司的产品和服务提供支撑。
简历投递:请发送简历至Noahlab@huawei.com,邮件标题“应聘职位+姓名”
— Welcome Aboard!—