一、时间序列与平稳序列
1.时间序列的概念
时间序列,就是按照时间次序排列的随机变量列,其最重要的特征就是具有时间关系,即处于不同时间的随机变量可能具有一定的联系。生活中有许多时间序列,如每个月的平均气温、股市每天的收盘价等等,都是时间序列。
任何时间序列,经过合理的变换后都可以看作由三个部分叠加而成:趋势项,周期项和随机噪声项。趋势项大体刻画了时间序列的变化趋势,是一个固定的、可以预测的项;周期项是具有一定周期的时间序列,比如一年四季每个季节有各自的特征,就可以用周期项来刻画;随机噪声则是随机干扰,一般被视为独立的零均值序列。
以上关系概括说来,就是
X
t
=
T
t
+
S
t
+
R
t
.
X_t=T_t+S_t+R_t.
Xt=Tt+St+Rt.
在实际生活中,时间不能倒流,所以时间序列往往只能够发生一次,即获得一次观测。
X
1
,
X
2
,
⋯
X_1,X_2,\cdots
X1,X2,⋯的一组实际数值
x
1
,
x
2
,
⋯
x_1,x_2,\cdots
x1,x2,⋯是时间序列的一次实现或一条轨道。
在获得观测值后,要对时间序列进行以上的分解,才能够获得具有实际意义的分布。有一些常用的分解方式,如分段趋势分解,回归直线法,二次曲线回归法,逐步平均法等等。
随机过程中将时间指标分成连续集与离散集两种,即 t t t的取值可以是连续的 R , R + \R,\R_+ R,R+或离散的 Z , Z + \Z,\Z_+ Z,Z+,我们将重点放在离散时间序列上。
2.重要的时间序列——平稳序列
时间序列的趋势项和季节项往往可以用非随机的函数进行刻画,剩下的随机噪声项,往往会具有某种平稳波动性,即在某条直线上下跳跃。平稳序列是用来描述某一种具有平稳波动性序列的序列,其定义如下。
如果时间序列 { X t } \{X_t\} {Xt}满足:
- ∀ t ∈ N , E X t 2 < ∞ \forall t\in \N,{\rm E}X_t^2<\infty ∀t∈N,EXt2<∞,即二阶矩存在;
- ∀ ∈ N , E X t = μ \forall \in\N,{\rm E}X_t=\mu ∀∈N,EXt=μ,即均值一致;
- ∀ t , s ∈ N , E [ ( X t − μ ) ( X s − μ ) ] = γ t − s \forall t,s\in\N,{\rm E}[(X_t-\mu)(X_s-\mu)]=\gamma_{t-s} ∀t,s∈N,E[(Xt−μ)(Xs−μ)]=γt−s,即自协方差只与时间差有关。
就称 { X t } \{X_t\} {Xt}是平稳时间序列,称 { γ t } \{\gamma_t\} {γt}为 { X t } \{X_t\} {Xt}的自协方差函数。
从平稳序列的定义可以看出,它的平稳表现在两个方面,一是均值、方差的平稳性,即均值、方差与时间无关;二是相关性的平稳性,即序列中的任意两个随机变量自协方差函数,只与时间差有关,而与它们的绝对位置无关。
需要注意,自协方差函数是包含分布的方差的,因为 D X t = γ 0 {\rm D}X_t=\gamma_0 DXt=γ0。这也说明了方差与时间无关,因为对任何 X t X_t Xt,其方差都是 γ 0 \gamma_0 γ0,是一个常数。如果 γ 0 = 0 \gamma_0=0 γ0=0,那么随机变量就是一个常数,没有讨论的必要,因此我们总假定 γ 0 > 0 \gamma_0>0 γ0>0。
从平稳序列的定义来看,它最重要的元素无疑是自协方差函数,这刻画了序列内部的关系。首先,很显然对于任何实时间序列,其自协方差序列都是实数列,除此外自协方差函数有以下三条重要性质:
1、对称性,即 γ k = γ − k \gamma_k=\gamma_{-k} γk=γ−k对所有 k ∈ Z k\in\Z k∈Z成立。
2、非负定性,即对任何 n ∈ N n\in\N n∈N, n n n阶自协方差矩阵
Γ n = [ γ 0 γ 1 ⋯ γ n − 1 γ 1 γ 0 ⋯ γ n − 2 ⋮ ⋮ ⋮ γ n − 1 γ n − 2 ⋯ γ 0 ] \Gamma_n=\begin{bmatrix} \gamma_0&\gamma_1&\cdots&\gamma_{n-1}\\ \gamma_1&\gamma_0&\cdots&\gamma_{n-2}\\ \vdots&\vdots&&\vdots\\ \gamma_{n-1}&\gamma_{n-2}&\cdots&\gamma_0 \end{bmatrix} Γn=⎣⎢⎢⎢⎡γ0γ1⋮γn−1γ1γ0⋮γn−2⋯⋯⋯γn−1γn−2⋮γ0⎦⎥⎥⎥⎤
总是非负定的。3、有界性,即对任何 k ∈ Z k\in\Z k∈Z,有 ∣ γ k ∣ ≤ γ 0 |\gamma_k|\le \gamma_0 ∣γk∣≤γ0。
同时满足以上三条性质的实数列称为非负定序列,平稳序列的自协方差函数就是非负定序列,并且可以证明,每个非负定序列都可以是一个平稳序列的自协方差函数。这里建立了非负定序列与平稳序列的对应性。
接下来对平稳序列的这三条性质进行证明。对称性最显然,由定义就可以直接看出,即
γ
k
=
C
o
v
(
X
t
,
X
t
+
k
)
=
C
o
v
(
X
t
+
k
,
X
t
+
k
−
k
)
=
γ
−
k
.
\gamma_k={\rm Cov}(X_{t},X_{t+k})={\rm Cov}(X_{t+k},X_{t+k-k})=\gamma_{-k}.
γk=Cov(Xt,Xt+k)=Cov(Xt+k,Xt+k−k)=γ−k.
非负定性,即自协方差矩阵是非负定矩阵,对于任何一个二次型要证明其非负,就任取一个常数向量,计算
a
n
′
Γ
n
a
n
=
∑
j
=
1
n
∑
k
=
1
n
a
j
a
k
γ
j
−
k
=
∑
j
=
1
n
∑
k
=
1
n
a
k
a
j
C
o
v
(
X
k
,
X
j
)
=
D
(
∑
j
=
1
n
a
j
X
j
)
≥
0.
\begin{aligned} \boldsymbol a'_n\Gamma_n\boldsymbol a_n=&\sum_{j=1}^n\sum_{k=1}^na_ja_k\gamma_{j-k}\\ =&\sum_{j=1}^n\sum_{k=1}^na_ka_j{\rm Cov}(X_k,X_{j})\\ =&{\rm D}(\sum_{j=1}^n a_jX_j)\ge0. \end{aligned}
an′Γnan===j=1∑nk=1∑najakγj−kj=1∑nk=1∑nakajCov(Xk,Xj)D(j=1∑najXj)≥0.
这个证明过程中,需要牢记的是二次型的写法,即将二次型写成一个双重求和的结果,每一项是
b
j
b
k
b_jb_k
bjbk与二次型矩阵的第
(
j
,
k
)
(j,k)
(j,k)项乘积;并且将双重求和转化成一个单次求和的函数,这个思想也很重要。
有界性,用到柯西不等式,将随机变量中心化,即 Y t = X t − μ Y_t=X_t-\mu Yt=Xt−μ,那么 D Y t = D X t = γ 0 {\rm D}Y_t={\rm D}X_t=\gamma_0 DYt=DXt=γ0, C o v ( X t , X t + k ) = C o v ( Y t , Y t + k ) = γ k {\rm Cov}(X_t,X_{t+k})={\rm Cov}(Y_t,Y_{t+k})=\gamma_k Cov(Xt,Xt+k)=Cov(Yt,Yt+k)=γk,就有 ∣ γ k ∣ = ∣ E ( Y t Y t + k ) ∣ ≤ E Y t 2 E Y t + k 2 = γ 0 |\gamma_k|=|{\rm E}(Y_tY_{t+k})|\le \sqrt{{\rm E}Y_t^2{\rm E}Y_{t+k}^2}=\gamma_0 ∣γk∣=∣E(YtYt+k)∣≤EYt2EYt+k2=γ0,这里小于等于号就是柯西不等式的结果。
由有界性可以知道 − 1 ≤ γ k / γ 0 ≤ 1 -1\le \gamma_k/\gamma_0\le 1 −1≤γk/γ0≤1,与相关系数有很大的相似之处,所以我们将 γ k / γ 0 \gamma_k/\gamma_0 γk/γ0定义为平稳序列的自相关系数,也就是自协方差函数的归一化。在某些情况下,自相关函数甚至比自协方差函数还要重要。
我们再将目光投射到三条性质中,最不平凡的那条,即非负定性上。既然我们知道
∀
a
n
\forall \boldsymbol a_n
∀an,有
a
n
′
Γ
n
a
n
≥
0
\boldsymbol a_n'\Gamma_n\boldsymbol a_n\ge 0
an′Γnan≥0,那么作为临界情况的等号成立时意味着什么呢?显然等号很难对于所有
a
n
\boldsymbol a_n
an都成立(除非
Γ
n
=
O
\Gamma_n=O
Γn=O,但这是没有意义的),所以我们讨论对某个特定的
a
n
\boldsymbol a_n
an等号成立的情况。由于
a
n
′
Γ
n
a
n
=
D
(
∑
j
=
1
n
a
j
X
j
)
,
\boldsymbol a_n'\Gamma_n\boldsymbol a_n={\rm D}(\sum_{j=1}^n a_jX_j),
an′Γnan=D(j=1∑najXj),
我们不妨定义
X
=
(
X
1
,
⋯
,
X
n
)
′
\boldsymbol X=(X_1,\cdots,X_n)'
X=(X1,⋯,Xn)′,那么
a
n
′
Γ
n
a
n
=
D
(
a
′
X
)
=
0
\boldsymbol a_n'\Gamma_n\boldsymbol a_n={\rm D}(\boldsymbol a'\boldsymbol X)=0
an′Γnan=D(a′X)=0,也就说明
a
′
X
\boldsymbol a'\boldsymbol X
a′X是常数,结合其均值来看应该有
a
′
X
=
μ
a
′
1
n
\boldsymbol a'X=\mu\boldsymbol a'\boldsymbol 1_n
a′X=μa′1n(
1
n
\boldsymbol 1_n
1n指全是1的列向量)。由于我们规定
a
n
≠
0
\boldsymbol a_n\ne0
an=0,那么一定存在一个下标最大的分量
a
k
≠
0
a_k\ne 0
ak=0,使得
X
k
X_k
Xk可以被
X
1
,
⋯
,
X
k
−
1
X_1,\cdots,X_{k-1}
X1,⋯,Xk−1线性表示。这时,我们称
X
1
,
⋯
,
X
n
X_1,\cdots,X_n
X1,⋯,Xn是线性相关的。
并且进一步看,由于自协方差函数与序列位置无关,即
a
n
′
Γ
n
a
n
=
∑
j
=
1
n
∑
k
=
1
n
a
j
a
k
C
o
v
(
X
t
+
j
,
X
t
+
k
)
=
D
(
∑
j
=
1
n
a
j
X
t
+
j
)
=
0
,
\boldsymbol a_n'\Gamma_n\boldsymbol a_n=\sum_{j=1}^n\sum_{k=1}^na_ja_k{\rm Cov}(X_{t+j},X_{t+k})={\rm D}(\sum_{j=1}^n a_jX_{t+j})=0,
an′Γnan=j=1∑nk=1∑najakCov(Xt+j,Xt+k)=D(j=1∑najXt+j)=0,
所以对任何一组的连续的
(
X
t
+
1
,
⋯
,
X
t
+
n
)
(X_{t+1},\cdots,X_{t+n})
(Xt+1,⋯,Xt+n),都有
X
t
+
k
X_{t+k}
Xt+k可以被
X
t
+
1
,
⋯
,
X
t
+
k
−
1
X_{t+1},\cdots,X_{t+k-1}
Xt+1,⋯,Xt+k−1线性表示,并且表示系数是相同的。这一性质,表明对于退化的
Γ
n
\Gamma_n
Γn,任何
X
t
,
t
≥
n
X_{t},t\ge n
Xt,t≥n都可以被
X
0
,
⋯
,
X
n
−
1
X_0,\cdots,X_{n-1}
X0,⋯,Xn−1线性表示,这进一步说明了对于任意的
n
n
n个
X
t
X_t
Xt,它们一定是线性相关的,不管是不是连续增长的时间指标
t
t
t。
事实上,用多元统计的观点看,设
X
=
(
X
t
+
1
,
X
t
+
2
,
⋯
,
X
t
+
n
)
\boldsymbol X=(X_{t+1},X_{t+2},\cdots,X_{t+n})
X=(Xt+1,Xt+2,⋯,Xt+n),那么
Γ
n
=
D
(
X
)
\Gamma_n={\rm D}(\boldsymbol X)
Γn=D(X),即随机向量的协方差矩阵,那么自然有
E
(
A
X
+
B
)
=
A
X
+
B
,
D
(
A
X
+
B
)
=
A
D
(
X
)
A
′
=
A
Γ
n
A
′
.
{\rm E}(A\boldsymbol X+B)=A\boldsymbol X+B,\quad {\rm D}(A\boldsymbol X+B)=A{\rm D}(\boldsymbol X)A'=A\Gamma_nA'.
E(AX+B)=AX+B,D(AX+B)=AD(X)A′=AΓnA′.
当
A
=
a
n
′
,
B
=
c
A=\boldsymbol a'_n,B=c
A=an′,B=c的时候,显然有
D
(
a
n
′
X
+
c
)
=
a
n
′
Γ
n
a
n
≥
0
D(\boldsymbol a_n'\boldsymbol X+c)=\boldsymbol a_n'\Gamma_n\boldsymbol a_n\ge 0
D(an′X+c)=an′Γnan≥0。
需要注意的是,平稳序列并不一定是平稳但散乱的,也可以具有很强的周期性,其典型例子就是调和平稳序列 X t = b cos ( a t + U ) , U ∼ U ( − π , π ) X_t=b\cos(at+U),U\sim U(-\pi,\pi) Xt=bcos(at+U),U∼U(−π,π),它的自协方差函数是 1 2 b 2 cos ( ( t − s ) a ) \frac 12b^2\cos ((t-s)a) 21b2cos((t−s)a),具有很强的周期性,所以观测样本也会具有周期性。
3.特殊的平稳序列——白噪声
白噪声是一种最为简单,但也颇具地位的平稳序列,其定义如下。
设 { ε t } \{\varepsilon_t\} {εt}是一个平稳序列,如果对任何 s , t ∈ N s,t\in\N s,t∈N,都有
E ε t = μ , D ε t = σ 2 , C o v ( ε t , ε s ) = 0 , t ≠ s . {\rm E}\varepsilon_t=\mu,\quad {\rm D}\varepsilon_t=\sigma^2,\\ \quad {\rm Cov}(\varepsilon_t,\varepsilon_s)=0,\quad t\ne s. Eεt=μ,Dεt=σ2,Cov(εt,εs)=0,t=s.
就称 { ε t } \{\varepsilon_t\} {εt}是一个白噪声,记作 W N ( μ , σ 2 ) {\rm WN}(\mu,\sigma^2) WN(μ,σ2)。
关于其方差和协方差的另一种写法是
C
o
v
(
ε
t
,
ε
s
)
=
{
σ
2
,
t
=
s
0
,
t
≠
s
=
σ
2
δ
t
−
s
.
{\rm Cov}(\varepsilon_t,\varepsilon_s)=\left\{ \begin{array}l \sigma^2,&t=s\\ 0,&t\ne s \end{array}=\sigma^2\delta_{t-s}. \right.
Cov(εt,εs)={σ2,0,t=st=s=σ2δt−s.
这里
δ
k
\delta_k
δk是克罗内克(Kronecker)函数,当
k
=
0
k=0
k=0时
δ
k
=
1
\delta_k=1
δk=1,否则
δ
k
=
0
\delta_k=0
δk=0。
白噪声又可以细分为以下几类:
- 当 { ε t } \{\varepsilon_t\} {εt}是独立序列时,称为独立白噪声(定义只保证了不相关);
- 当 μ = 0 \mu=0 μ=0时,称为零均值白噪声;
- 当 μ = 0 , σ 2 = 1 \mu=0,\sigma^2=1 μ=0,σ2=1时,称为标准白噪声;
- 当 { ε t } \{\varepsilon_t\} {εt}服从正态分布且是独立序列时,称为正态白噪声。
4.多平稳序列的相互关系
多平稳序列的相互关系,指的是对于两个平稳序列 { X t } \{X_t\} {Xt}和 { Y t } \{Y_t\} {Yt},它们之间具有的相互性质。具体可以细分为正交平稳序列和不相关平稳序列,其定义如下:
正交的:如果 ∀ s , t ∈ Z \forall s,t\in\Z ∀s,t∈Z,都有 E ( X t Y s ) = 0 {\rm E}(X_tY_s)=0 E(XtYs)=0,就称 { X t } , { Y t } \{X_t\},\{Y_t\} {Xt},{Yt}是正交的。
不相关的:如果 ∀ s , t ∈ Z \forall s,t\in\Z ∀s,t∈Z,都有 E ( X t Y s ) = E X t E Y s {\rm E}(X_tY_s)={\rm E}X_t{\rm E}Y_s E(XtYs)=EXtEYs,就称 { X t } , { Y s } \{X_t\},\{Y_s\} {Xt},{Ys}是不相关的。
这两个定义很好从字面意义上理解。正交是垂直的推广,在线性代数中两个向量 a , b a,b a,b正交被定义为其内积 ⟨ a , b ⟩ = 0 \langle a,b\rangle=0 ⟨a,b⟩=0,在平稳序列中,就是乘积的期望为0;不相关就是二者不对对方产生影响,所以乘起来求期望与分开求期望相乘得到的结果理应是一样的。如果 E X t E Y s = 0 {\rm E}X_t{\rm E}Y_s=0 EXtEYs=0,那么正交序列和不相关序列本身等价,也就是说,对于零均值平稳序列,其正交性和不相关性是等价的。
为什么要讨论这两种特殊的关系呢?我们以后可能会对平稳序列进行求和,即 Z t = X t + Y t Z_t=X_t+Y_t Zt=Xt+Yt,如果 { Z t } \{Z_t\} {Zt}本身也能够是平稳序列那再好不过了。幸运的是, { X t } , { Y t } \{X_t\},\{Y_t\} {Xt},{Yt}是正交、不相关序列时,都能让 { Z t } \{Z_t\} {Zt}是平稳序列。
要证明
{
Z
t
}
\{Z_t\}
{Zt}是平稳序列,就要证明其二阶矩有限、期望平稳、自协方差函数仅与时间差有关。期望平稳是显然的,有
μ
Z
=
μ
X
+
μ
Y
\mu_Z=\mu_X+\mu_Y
μZ=μX+μY;二阶矩有限也是显然的,有
E
Z
t
2
=
E
(
X
t
+
Y
t
)
2
≤
2
E
X
t
2
+
2
E
Y
t
2
<
∞
.
{\rm E}Z_t^2={\rm E}(X_t+Y_t)^2\le 2{\rm E}X_t^2+2{\rm E}Y_t^2<\infty.
EZt2=E(Xt+Yt)2≤2EXt2+2EYt2<∞.
接下来对正交、不相关序列,分别求
{
Z
t
}
\{Z_t\}
{Zt}的自协方差函数。首先是正交的情况,有
C
o
v
(
Z
t
,
Z
s
)
=
C
o
v
(
X
t
,
X
s
)
+
C
o
v
(
X
t
,
Y
s
)
+
C
o
v
(
Y
t
,
X
s
)
+
C
o
v
(
Y
t
,
Y
s
)
=
γ
X
(
t
−
s
)
+
γ
Y
(
t
−
s
)
+
E
(
X
s
Y
t
)
−
E
X
s
E
Y
t
+
E
(
X
t
Y
s
)
−
E
X
t
E
Y
s
=
γ
X
(
t
−
s
)
+
γ
Y
(
t
−
s
)
−
2
μ
X
μ
Y
;
\begin{aligned} {\rm Cov}(Z_{t},Z_s)=&{\rm Cov}(X_t,X_s)+{\rm Cov}(X_t,Y_s)+{\rm Cov}(Y_t,X_s)+{\rm Cov}(Y_t,Y_s)\\ =&\gamma_X(t-s)+\gamma_Y(t-s)+{\rm E}(X_sY_t)-{\rm E}X_s{\rm E}Y_t+{\rm E}(X_tY_s)-{\rm E}X_t{\rm E}Y_s\\ =&\gamma_X(t-s)+\gamma_Y(t-s)-2\mu_X\mu_Y; \end{aligned}
Cov(Zt,Zs)===Cov(Xt,Xs)+Cov(Xt,Ys)+Cov(Yt,Xs)+Cov(Yt,Ys)γX(t−s)+γY(t−s)+E(XsYt)−EXsEYt+E(XtYs)−EXtEYsγX(t−s)+γY(t−s)−2μXμY;
然后是不相关的情况,立马得到
C
o
v
(
Z
t
,
Z
s
)
=
γ
X
(
t
−
s
)
+
γ
Y
(
t
−
s
)
{\rm Cov}(Z_t,Z_s)=\gamma_X(t-s)+\gamma_Y(t-s)
Cov(Zt,Zs)=γX(t−s)+γY(t−s)。这两个数都是
t
−
s
t-s
t−s的函数,这就证明了对正交、不相关平稳序列,其和仍然是平稳序列。
加和的自协方差函数不方便记忆,可以记以下的简化结论:对于零均值的正交平稳序列 { X t } , { Y t } \{X_t\},\{Y_t\} {Xt},{Yt},他们的和 { Z t } , Z t = X t + Y t \{Z_t\},Z_t=X_t+Y_t {Zt},Zt=Xt+Yt仍是平稳序列,且 μ Z = μ X + μ Y , γ Z ( k ) = γ X ( k ) + γ Y ( k ) \mu_Z=\mu_X+\mu_Y,\gamma_Z(k)=\gamma_X(k)+\gamma_Y(k) μZ=μX+μY,γZ(k)=γX(k)+γY(k)。
回顾总结
- 任何时间序列经过适当的变换,都可以拆解为趋势项、季节项、随机噪声,并且趋势项和季节项一般被认为是非随机函数。
- 平稳序列是二阶矩存在、期望一致、自协方差只与时间差有关的时间序列,满足这三个条件就是平稳序列,这一般被用来验证序列的平稳性。
- 平稳序列中最重要的是自协方差函数 { γ k } \{\gamma_k\} {γk},这是一个实数列,满足对称性、非负定性、有界性三个性质。
- 满足对称性、非负定性、有界性的实数列被称为非负定序列,一个非负定序列一定是某个平稳序列的自协方差函数。但非负定性的验证比较麻烦,所以验证一个序列是非负定序列一般是证明它是某个平稳序列的自协方差函数。
- 如果 Γ n \Gamma_n Γn退化,则 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn线性相关,并且可以证明任何下标不小于 n n n的项 X t X_t Xt都可以用 X 1 X_1 X1到 X n − 1 X_{n-1} Xn−1这 n − 1 n-1 n−1项线性表示。
- 平稳序列是特殊的时间序列,白噪声 W N ( μ , σ 2 ) {\rm WN}(\mu,\sigma^2) WN(μ,σ2)是特殊的平稳序列,它的主要特征是序列不相关性,也就是序列之间任意两个不同的随机变量无关,一样需要满足均值、方差的一致性。
- 白噪声中,又有独立白噪声、零均值白噪声、标准白噪声、正态白噪声几类特殊白噪声。
- 平稳序列正交指 E ( X t Y s ) = 0 {\rm E}(X_tY_s)=0 E(XtYs)=0,不相关指 E ( X t Y s ) = E X t E Y s {\rm E}(X_tY_s)={\rm E}X_t{\rm E}Y_s E(XtYs)=EXtEYs,对零均值平稳序列这两个定义是等价的。
- 平稳的正交、不相关序列加和仍然是平稳序列,且对于零均值的情况,自协方差函数为两个分开的自协方差函数之和。