平稳性OR记忆力，时间序列该如何权衡？

最新推荐文章于 2024-11-02 22:29:50 发布

三千の世界

最新推荐文章于 2024-11-02 22:29:50 发布

阅读量600

点赞数

分类专栏： Python DataAnalysis Math

原文链接：http://www.sohu.com/a/305943461_100118081

版权

Python 同时被 3 个专栏收录

56 篇文章 1 订阅

订阅专栏

DataAnalysis

27 篇文章 1 订阅

订阅专栏

Math

9 篇文章 0 订阅

订阅专栏

基础: 时间序列学习笔记（2）平稳性 https://blog.csdn.net/weixin_36355447/article/details/74012546

许多预测模型都要求时间序列具有一定的一致性，即“平稳性”。平常的转换，即整数阶差分(譬如，在金融学中表现为建模收益而不是绝对价格)，消除了数据中的记忆，从而影响了建模的预测能力。

本文概述了分数微积分如何保留更多的信息，以及如何更好地在平稳性和有意义的记忆之间做出权衡。

一般而言，我们会把一个给定的时间序列理解为一个随机过程产生的样本，并试图推断出其分布及统计数据以建立一个预测模型。

建立随机过程的预测模型是为了平衡样本的特殊性和一般性：该模型根据一般模式的背景对给定的序列做出解释。

比一般预测回归更具体的是，由于时间结构的原因，时间序列一般具有其固有顺序。任何给定的实例都反映了其发展变化情况，即过去跟踪记录的特定记忆。

平稳性

为了确定生成过程的一般模式并映射给定的排列，在实际建模之前我们通常将此特定序列的记忆作为预处理步骤的一部分予以删除。

在机器学习领域的监督学习中，该序列可以发现一般性结构并对给定的实例与标记训练集中更多的样本进行匹配。

在数学领域,过程的统计特性（即序列集，如平均值、方差和协方差）不会因时间顺序的改变而变化，这意味着系列不会随时间推移而呈现出一种趋势。该概念被称为平稳性。

检查时间序列平稳性的方法有很多种:

1.观察线形图，寻找一段时间内的明显的趋势。

2.比较数列中各种（随机）分割的基本汇总统计数据（平均值、方差、协方差）。

3.观察自相关图：曲线下降越快，滞后越明显，序列的非平稳性阶数越小。

4.最常见的平稳性统计检验是单位根的ADF检验。

单位根是指初始条件或外部冲击不会随着时间的推移而消散，而是通过该序列传播，并通知所有后续值。该含义从直观上正式地解决了在单位圆上的过程特征方程。

对于给定的置信水平，ADF测试零假设“序列中存在单位根”（表明时间序列的不稳定性）以及序列稳定性的替代（或严格地说,趋势平稳性）。它直接证明了，单位根的存在确实意味着该序列的不稳定。

所以方差具有时间依赖性。

由于许多经典模型的必要假设是时间序列的平稳性：当你的数据有明显的趋势或季节性时, 你可将其删除并对其余部分进行建模，然后结合（确定性）趋势和模型输出以进行预测。

常用的序列平稳性转化与某些顺序不同：一阶差分是简单地从每个值减去前值（提取速率）。二阶差分会重复此过程以提高结果级数。譬如，在金融时间序列中，你会考虑对数收益而不是绝对价格，以使模型无法得知特定的价格水平。（事实上，对于大多数财务序列来说，一阶差分足以确保其不稳定性。）

在基于自相关函数的ARIMA(p，d，q)中, 差分实际上是算法的一部分: 参数p、d和q是非负整数, 其中p为自回归项（即时滞数），d为差分阶数，q为移动平均项数。

该过程“动了场手术”，消除了序列中的单位根。

然而，另一方面，它抹去了记忆，而记忆正是模型预测能力的基础：差分限制了过去的信息在整个序列中传播的方式。

例如，对于金融序列，我们处于一个两难境地——没有记忆的平稳收益序列(一阶差分)和有记忆但不平稳的绝对价格序列（零阶差分）。

但也许根本没必要作出此两级划分? 如果我们能在这两个极端之间进行插值呢?

分数阶微积分

事实上，在17世纪牛顿和莱布尼茨发明微积分后不久，数学家们就对分数阶导数的使用进行了探索，将微分或积分的顺序从自然数扩展到实数。然而，其应采纳赫斯特和曼德尔布罗特在20世纪的成果，为分数微积分找到初期的自然应用，并使其与霍斯金和格兰杰于20世纪80年代创建的Arfima模型一同进入金融领域。

大约在1730年，欧拉就该归纳给出有史以来第一个启发式，通过函数将二项式系数推广到实数阶。后来，在黎曼和刘维尔的积分理论中，重复微分的柯西公式使之变得更加严谨。

这里，我们仅仅给出了时间序列差分应用程序的形式启发式：

B表示滞后操作符，即对于t>1, B X_t=X_{t-1}和某个时间序列X={X_1，...}。一阶元素阶差分可以用恒等算子I表示，如下：

该算子的多项式可以理解为重复应用，如B X_{t}=X_{t-2}。我们可以用二项式系数展开该序列：

差分算子的形式幂级数展开。

虽然 d ∈ ℜ的要求可能会变得更严格，但在这里，由于我们只需在以下应用中使用该展开式的截断版本，所以实际上，我们无需担心该形式推导的收敛性。

从该推导中，我们可以得出滞后权重的迭代公式：

其中ω_k是滞后算子B ^ k的系数。例如,其收益为 ω_0 = 1,ω_1 = 1和ω_k = 0 k > 1(一阶差分)。

让我们看看不同阶差的系数(代码如下)。

我们注意到分数差分的两个重要特点：

· 滞后权重等于零的整数维d∈𝒩与d<k: 这意味着我们可对整数阶进行一般的推导。

· 对于实阶d和大阶滞回，滞回权值渐近变小。这种现象被称为“长记忆”(或者微积分中的“非局部性”)，通常需要边界条件。这里，我们只选择去掉超出特定窗口大小的(小)权重。

金融时间序列建模的应用

在金融领域，时间序列起主导作用。为了更好地理解分数阶差分的特征，我们将其应用于一些典型的金融时间序列。

利用以下代码，将差分算子的上述形式序列的展开式应用到指定实阶d和固定窗口大小的时间序列上，得到变换后的序列，然后只需将一个pandas时间序列输入参数阶和lag_cutoff的ts_difference函数中即可。

2016-2018年比特币的价格(红色，右轴)，以及部分衍生品(蓝色阴影)

正如你可能已注意到的，比特币的价格在2017年和2018年经历了一次明显的炒作（上图红色曲线）。实际上，看看一阶差分，我们发现价格在某些日期（例如12月17日）上涨了2500美元以上。上图展示了一些分数阶差分的平滑函数插值。这似乎很奇怪，在如此强劲的趋势下，约0.4的弱差分实际上竟足以使该序列呈平稳型：给定样本的ADF统计量为-5，其已低于DF t-分布的临界值-2.86, 因此在置信度为95%下，该序列可以假定是平稳的。的确，随着财富的来回变动，它很快就变得吝啬起来。

低阶差分足以满足平稳性的结论与其他许多金融时间序列相似。

为了说明平稳性和记忆之间的权衡，我们可以进行适当的可视化，并将ADF测试统计数据以及与原始序列的相关性绘制成具有不同阶差变换的序列。（值得注意的是，ADF检验统计量越低，表明检验的备选方案的可能性越高，即越是负值，我们越有可能拒绝零假设并假设其为平稳性）。

对于（滚动）商品期货、汇率、指数等各种典型的金融序列，这种对比清晰地表明了（低）差阶满足金融建模的平稳性条件，同时保留了特定的记忆结构，从而保持了原始序列的统计动态。