传统统计模型的劣势:假设这些与时间有关的临近的样本点之间的关系是独立同分布的
时间序列分析:最系统的方法就是,回答一些由时间相关性带来的数学上与统计上的问题。
时间序列分析的第一步:仔细观察数据,得出用于总结数据中所含信息的统计分析方法。
得出方法之前我们需要证明时间序列的分析方法是存在的:时间域方法(time domain approach)和频率域方法(frequency domain approach)。
时间域方法看中对关系的研究,比如今天发生的事对明天发生的事有着怎样的影响?
频率域方法看中对周期的研究,比如说某个经济周期是怎么扩张或者缩减的?
例1,Johnson & Johnson 银行的每季度获利数据表
install.packages(“astsa”)//安装astsa的包
library(astsa)
plot(jj, type=”o”, ylab=”Quarterly Earnings per Share”)
数据的特点:呈增长的趋势并叠加一些常规的变化。
这个特点在周期内重复。
例2 全球变暖
对于这一组数据我们更关心变化趋势而不是周期性。
例3 语音数据
一段语音数据中每一秒10000数据对于音节aaaa….hhhh的纪录
例4 Dow Jones Industrial Average
虽然数据显示平均值为0,但是高度不稳定的数据成群体出现,我们希望分析数据预测将来的变化,模型ARCH和GARCH,还有stochastic volatility 模型都是 去处理这个问题的。
例5 鱼的数量与氧含量
两组数据一组为鱼的数量,一组为海洋表面含氧量,显然两组数据是有关系的,transfer function 模型就是用于此种情况。
例6 核磁共振影像
测试大脑的五个部分对于同一刺激(刷子刷手)的反应,五部分相互独立,分析方法是由传统统计方法发展而来的。
图是皮质(cortex)和丘脑(thalamus)&小脑(cerebellum)受到刺激时的血压变化图。
例7 地震和爆炸
图代表了地震&爆炸之后的两个阶段,希望区分地震和爆炸的波形,比较重要的一个特点就是第一阶段振幅和第二阶段振幅的比率,地震和爆炸是不同的。我们可以用谱分析来测定地震和爆炸的相同周期成分的不同,同时我们还希望对于未知源头的爆炸或者地震预测前后两个阶段的等级,这些都需要time series discriminant分析.
时间序列的本质就是去发展一个数学模型对样本数据提供貌似真实的描述。
时间序列定义:由时间索引的随机变量的集合
时间序列就是一个随机变量列
x1,x2,…,xn,…
x
1
,
x
2
,
…
,
x
n
,
…
其中
x1
x
1
代表第一个时间点的值,以此类推。
例子8 White Noise
Wt∼WN(0,σ2w)
W
t
∼
W
N
(
0
,
σ
w
2
)
三个特点:独立同分布(iid);平均值为0(常数);方差为常数。
特殊情况:Gaussian white noise,所有随机变量为独立正态分布。
WN来源于对于对于白光的模仿,一些可能的周期性扰动与WN表现出相同的特点。
例9 Moving Averages and Filtering(过滤)
Moving Average and Filtering 是wn的线性组合,用来过滤掉一些扰动。
Wt∼WN(0,σ2)
W
t
∼
W
N
(
0
,
σ
2
)
Vt=13Wt−1+13Wt+13Wt+1
V
t
=
1
3
W
t
−
1
+
1
3
W
t
+
1
3
W
t
+
1
对比white noise,慢的扰动显现出来了,快的扰动被筛除了。
下面的图更像例5中的SOI:
例10 Autoregression(Self-regression)
核磁共振影像、鱼的新增数量曲线、语音数据的曲线显然不是Moving Average and Filtering,有一个扰动必然是占支配地位,表现出正弦曲线的特征.
Xt
X
t
是Autoregression
X1=Wt
X
1
=
W
t
Xt=Xt−1−0.9Xt−2+Wt
X
t
=
X
t
−
1
−
0.9
X
t
−
2
+
W
t
周期性是最大的特点,t时间的值在之后还会出现,是为“回归”。
但是如果假设
X0=0
X
0
=
0
是不满足Autoregression的(?),但是当t足够大的时候,是近似于Autoregression的。
例11 Random Walk with Drift
Always return;
赌博中常用到;
例2中的全球温度;
Xt
X
t
为Random Walk with Drift:
Xt=σ+Xt−1+Wt
X
t
=
σ
+
X
t
−
1
+
W
t
σ
σ
是常数,是Drift,
σ
σ
为0的时候叫做Random Walk;
Wt
W
t
为WN;
X0=0
X
0
=
0
;
进一步,可以推出:
Xt=σt+∑tj=1Wj
X
t
=
σ
t
+
∑
j
=
1
t
W
j
我们可以发现当sigma为0的时候,t时刻的值就是t-1时刻的值加上一个完全随机的wn.
t时间的值是上一个时间的值加上一个微小的扰动。
例12 Signal in Noise
许多现实中的时间序列都可以看成是一个潜在的有固定周期变化的信号被一个随机的噪音污染,比如例6的核磁共振影像就能清楚的看到周期。
Xt
X
t
是Signal in Noise:
Xt=Acos(2πwt+ϕ)+Wt
X
t
=
A
c
o
s
(
2
π
w
t
+
ϕ
)
+
W
t
A是振幅,w是扰动的频率,
ϕ
ϕ
是相位移动;
SNR=Aσw
S
N
R
=
A
σ
w
;
SNR越大越容易检测到信号,图中中间的那个最容易识别,最低下的最不容易识别: