应用时间序列分析清华大学出版社电子版_深入机器学习系列26—时间序列分析...

d6febd033d531d407b699f7130b87e57.png

1 基本概念

时间序列指的是按时间顺序排列的一组数字序列,而时间序列分析就是利用这组数列,应用数理统计方法加以处理,从而来预测未来事物的发展。该分析方法属于定量预测方法,既承认事物发展的延续性,应用历史数据即可推测事物发展趋势;其次也考虑了事物发展的随机性,为此要利用统计分析中各种方法对历史数据进行处理。目前该方法常应用在国民经济宏观控制、企业经营管理、区域综合发展规划、气象预报和环境污染控制等各个方面。

1.1 随机过程

6cb287f507c5f69b5dfcd48b42c69414.png

是一列独立同分布的随机变量序列,令

712c468de252ff023faa4e2ba081e115.png

则随机变量序列

e215e915c1da2264655f09ee03436363.png

为随机过程。

1.2 均值/协方差/方差函数

对于序列

9a89d487196654e4406571a5833353ba.png

而言:

  • 均值函数:

fec0a4655f73dfdfed654e7214cf2a73.png
  • 协方差函数:

78c543e1f48d8992dbb59dc96c9d3d7d.png
  • 方差函数:

f82644ab0fffa879b386a907da465668.png

Note:
为弱平稳的描述做准备。

1.3 平稳性

平稳性:时间序列的行为不随时间改变。

Why stationary?

简化问题的假设:

  • 强平稳:对于一个时间序列

f208a9033b23aa7dee75be4c016b01d5.png

与任意整数k,如果:

b57f96fa7e0eaefe5b1b43604d02ec6f.png

882ffc42d1c1e6a25b2c33a17d1d98e8.png

的联合分布一致,那么称该序列强平稳。

  • 弱平稳:对于一个序列,若其均值函数是常熟,协方差函数仅与时间差相关,那么称该序列弱稳定。

1.4 差分方程

一阶差分方程:

一个变量在t时刻的值记录为

de15eb4fe138a6e248d9c25ffd5b6c32.png

,t时刻和t-1时刻的值可以由以下一阶线性差分方程刻画:

11c926e6569ffba3319788bb6a58109b.png

阶差分方程:

5a1c2cf79b8f908bccb98f5cfa6ae385.png

差分方程的递归解:

ffe51a3286eb347860de2ea1da945729.png

动态乘子:

140c5947a2b9121b106dfad99cd12342.png

Note:
描述t时刻的扰动wt对于j时刻后的影响。
phi的取值以1为界对于过程的影响(消散,放大)。

1.5 延迟算子

令B为异步延迟算子,如果当前序列乘以一个延迟算子,表示把当前序列值的时间向过去拨一个时刻。使用延迟算子表示的一阶差分方程:

2261ca08a44d1f68c88ac76f6d80249e.png

延迟算子的性质如下:

2efa41150ffca80b3454127570c113a8.png

(1)

771f4810c8f87e1916c244d773bab92e.png

(2)若c为任意常数,则:

fa25b92aa2a4626378cdf11f63eae649.png

(3)

d881b36a566125ca3d7e16b0206f92fc.png

2 线性平稳时间序列

2.1 自回归过程(AR)

一阶自回归过程AR(1):

cd8b27ab288ebf949072a431595cbedd.png

为平稳序列,且满足如下差分方程:

10604472d0fa03ab5f6a3e6cf3a0603f.png

其中系数表示对前一项的依赖程度,扰动为白噪声序列,则称

cd8b27ab288ebf949072a431595cbedd.png

满足一阶自回归模型。

平稳条件:

1698ca21634cb3a65152101d082f3e9c.png

的根的绝对值小于1,即

a08e169fc966b9ac4ba19ece709f4085.png

Note:
这与差分方程中动态乘子的意义一致。

方差与均值:

9bd6cac7279ed6536626007718ac057c.png

利用延迟算子,一阶自回归模型可以表示为:

f6466661d84e1db0a204fd0c94a52e5b.png

如果满足平稳条件,则可以表示为:

1e8e7aac07a3ee801bd7b26ebb355983.png

Note:
类似于一个数列极限。平稳则扰动项必须收敛,否则与影响无限扩大。AR1是一个无限阶的移动平均过程。

2.2 移动平均过程

一阶移动平均过程MA(1):

cd8b27ab288ebf949072a431595cbedd.png

若满足如下方程:

5c7f62ab044489cf7be9896b0f1d8568.png

其中

a76acf2341474cfef17e105641ebfd05.png

为常数,

187aaf2414bec5acce203e43bfd52521.png

为移动平均系数,

7d3fffc99b995bf4aa9003f0e17271aa.png

为白噪声过程,则称

cd8b27ab288ebf949072a431595cbedd.png

满足一阶移动平均模型。

Note:
认为序列和前一时刻的扰动有关。

MA(1)的均值与方差:

cb5fdb1735be4178acc03d99d1eb1b13.png

89205798c1d7c8cd2f5007b675a6156a.png

2.3 自回归移动平均过程

ARMA(p,q)模型的一般表达式为:

9b737457ca2f3cf0f12052d17eeb5743.png

2.4 相关系数

2.4.1 自相关系数ACF

AR(1)的自协方差与自相关系数:

5c2c8589fdfe8bdd1b7b06162df655ea.png

077cf3fb6e66ff8817dee6cc9d01ad3f.png

Note:

这里是中心化后的序列,自协方差受幅度影响,相关系数去除幅度影响。

AR(p)的自协方差与自相关系数:

815abdff790633e5a5f2c60f60fe277e.png

(Yule-Walker方程,系数阵正定,可解回归系数)

Note:
p1=1,自己和自己的相关系数。模型定阶后可以求p阶协方差,解方程组。

MA(1)的自协方差与自相关系数:

4325e64ad949a64545a5db838b09d74b.png

高阶自相关系数均为0。

MA(q)的自协方差与自相关系数:

fb3296d09e4e5d9ce1eed4538651a0a0.png

解非线性方程,可得滑动平均系数。

Note:
for j>q, gamma=0,p=0,解非线性方程,可得滑动平均系数

ARMA(p,q)的自协方差与自相关系数:

76905c39bcda2f831d380558ee5a8706.webp

先同乘以

34a0d8b5a1a9daa23e9a72d7a0a9e714.png

,求均值得自协方差,得到Yule-Walker方程,求回归系数,然后构造:

6764167506e9077b1b6c9ba5f27f54fd.png

bbc814a30b39e0d9d6e00309b7f521fd.png

为MA(q)序列,按MA(q)序列计算自协方差/自相关系数,解非线性方程得滑动回归系数。

2.4.2 偏相关系数PACF

51d48d777af15681e0c7d90222189efd.png

Note:
用于定阶。

9f168cf2e97cb443394b5cbdde9f9d4e.png

aecb8c537187c6b97775d2f7bfc5cf4e.png

3 实际应用

3.1 模型(阶数)识别

aecb8c537187c6b97775d2f7bfc5cf4e.png

序列

AR(p)

MA(q)

ARMA(p,q)

ACF

拖尾

q阶截尾

拖尾

PACF

p阶截尾

拖尾

拖尾

896797a0258d5cdc6c72d43681e4491b.png

AIC/BIC准则:

d30b5db78dffcbfdd52e4ed7955c46a1.png

选择最大阶数

d74e02cdd77d9c081343cc24d2ffdbe7.png

,计算使AIC或者BIC最小的p、q,作为模型阶数。

Note:
耗时,每次要计算出模型,再计算拟合残差,MAXLAG^2次计算。

3.2 参数估计

  • 矩估计
  • 极大似然估计
    Note:
    矩估计:Yuler-Walker方程等。

极大似然估计:

以AR(1)为例:

bc391cb0e0f771f70f624248f2a77cbd.png

序列观测值:

cd8b27ab288ebf949072a431595cbedd.png

bed3b95eafaf41c8483b05edabc62809.png

为白噪声,参数为

12274c327898a9fcade76a1c91e6d841.png

对于第一个样本,

ecbc136dbd23d6073e154519914e382e.png

,即

2cb666c304f1a4a0158dbe1ec209ac2a.png

的概率分布:

fe53167ba089c615183bc693ea6f7c28.png

Note:
假设X1的期望与方差,与2.3中分析的一致。如果认为初始值也服从

fab446928ff68bb10bc20b239d061398.png

则忽略了初始值之前的影响。

考察,第二个样本

a3d2ec9655329c1bb4fcd549a464f61b.png

43b9bde861b5d08302db3599195a9178.png

已知条件下的概率分布,由于

be428711a4736373bf4c392eabc897c3.png

4c42b4a99327b49170a3decf5d8101ff.png

根据贝叶斯公式,

de5e98e9c2190d7e57839cab30ebf4b0.png

的联合分布为:

54d5a46edb6ccfefe392f8db1712b58d.png

Note:

d6556a82e8ae3188af6cf07e00a4b319.png

。常数

1991a2922bc82752e01f77b422f4cd7d.png

在前t-1个值已知的条件下,实际上

cd8b27ab288ebf949072a431595cbedd.png

仅与

86e0e293913d0a0c3518a5627962af53.png

有关:

e30c6ba2d947754a2a5a4c888095a43c.png

b5725b528bd16e2cd058a087d07c9f4a.png

的联合分布为:

b0b5bfa4f79720c75e406f8a7b541618.png

对数似然函数为:

18344747939d044b867e739a81017683.png

Note:
求偏导数=0的点。

向量形式:

cd74b6a34fead4d35518366f877391a2.png

c7789d5de475589ecfae4011ebc2957e.png

e706a60dafc1dc9de0aea301e2e6214e.png

MA(1)的似然函数:

60ab7d67a63b35efc7e42737d5056161.png

c3bcad48df33182dab5a878f9ce6dd86.png

Note:
epsilon序列可表示为

7d30f7d4c85782c1ccf083c7ef1be96a.png

的函数,非线性函数。

向量形式:

8b9c5f8c31e162c214c98e0aed0e1b52.png

d708a9e764603d01b902dce662358b58.png

ARMA(p,q)的极大似然估计:

0dcc96a3464af3d2c0f0a1d06ee2917d.png

,似然函数为:

815f1e1cbc549334b39058aa784fe7c0.png

4b948e39b67d8c10dd1f1ef2bbf20be9.png

Note:
参数包含在epsilon序列中。

4 一个实验

data:601000.ss, from 2014-8-9 to 2017-4-20,BIC准则定阶,前300个作为训练集,ARMA(4,0)。结果:

RMSE:
0.30651974757
MAPE:
0.012358387122

1a37129ee3637b68e0f0cb58e0558add.png

9d37751d13cafcc7c5e8b9195b068c06.png

180faf0c2c27cd17b53e4f068f01e308.png

315c5ed09f760d50209eaa936dfe53ee.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值