数据首先被收集并作为观察值记录下来。随后,对这些观察值进行预处理是至关重要的步骤,其中就包括检验数据的平稳性和纯随机性。
数据 → 观察 → 预处理(检验平稳性和纯随机性)
这里,我们首先要明确一个核心概念——平稳序列
一、 特征统计量
平稳性是某些时间序列具有的一种统计特征. 要描述清楚这个特征,我们必须借助以下统计工具.
1.概率分布:
概率分布描述了随机变量取不同值的可能性
(t1时刻对应的x1;t2时刻对应的x2;t3时刻对应的x3)
平稳时间序列的概率分布在不同时间点是相同的。我们可以使用分布函数/密度函数来描述数据的分布特性。
概率分布族是描述时间序列统计特性的关键工具,因为理论上可以通过这些分布推导出序列的所有统计性质。然而,在实际应用中,我们很少直接利用联合概率分布
2.特征统计量:
1. 均值
时间序列的均值描述的是在任意时刻 t下,随机变量 Xt的平均值
$$
\int_{-\infty}^{\infty} x \mathrm{~d} F_t(x)<\infty
$$
$$
\mu_t=E X_t=\int_{-\infty}^{\infty} x \mathrm{~d} F_t(x)
$$
2. 方差
时间序列的方差表示的是序列值 Xt围绕均值波动的程度。它衡量的是数据的离散性,或者说波动的大小。
公式
//方差公式
$$
\sigma_t^2=D X_t=E\left(X_t-\mu_t\right)^2=\int_{-\infty}^{\infty}\left(x-\mu_t\right)^2 \mathrm{~d} F_t(x)
$$
//条件公式
$\int_{-\infty}^{\infty} x^2 \mathrm{~d} F_t(x)<\infty$
方差度量的是数据值在均值附近的分布宽度。方差大说明数据在均值附近波动很大;方差小则说明波动很小。
3. 自协方差
自协方差γ(t,s)是描述时间序列在两个不同时间点 t 和 s之间相关性的度量。它衡量的是在这两个时刻上,序列值同时偏离它们各自均值的程度。
公式
$\left\{X_t, t \in T\right\}$
$t, s \in T$
$\gamma(t, s)$
$\left\{X_t\right\}$
$$
\gamma(t, s)=E\left[\left(X_t-\mu_t\right)\left(X_s-\mu_s\right)\right]
$$
时间点 t和 s;自协方差告诉完美序列在不同时间点之间的关联强度
4. 自相关系数
自相关系数ρ(t,s) 是自协方差的标准化版本,用来衡量两个时间点上的序列值之间的线性相关程度,值范围是 [−1,1]。
自协方差函数和自相关系数用来衡量时间序列值在不同时间点之间的相关性(通常的协方差函数和相关系数度量的是两个不同事件彼此之间的相互影响程度)。特别是它们可以帮助我们判断序列是否具有自相关性,即过去的某些行为是否对未来有影响。
均值描述序列在每个时刻的平均水平。
方差描述序列值在均值周围的波动大小。
自协方差函数度量了序列在两个不同时间点之间的相关性。
自相关系数是自协方差的标准化形式,反映了时间序列值之间的线性关系强度
二、平稳时间序列的定义
(一)严平稳
严平稳是一种较为苛刻的平稳性定义,它要求时间序列的所有统计性质都必须不随时间变化
随着时间的推移,不同时刻,所以的分布全都一样 概率分布(所有统计性质)
应满足条件:
(二)宽平稳
宽平稳,也叫弱平稳或二阶平稳,只关注时间序列的低阶矩(主要是均值、方差、自协方差)。它要求时间序列的一阶和二阶统计量随时间保持不变
应满足条件:
-
均值不变:时间序列的期望值在所有时间点 t 都相同,即:均值(一阶矩)是一个常数,不随时间变化
-
方差有限且不变:时间序列的方差在所有时间点上是有限的且相同,即:方差(二阶矩)是一个常数
-
协方差只与时间间隔有关:两个时刻 t 和 s之间的自协方差只与它们的时间间隔h=∣t−s∣有关,而与具体的时间 t 和 s 无关
(三)严平稳与宽平稳的关系
关系:
严平稳:要求所有统计特性(包括所有阶矩)不随时间变化,条件非常苛刻,实际应用中较少见。
宽平稳:只要求均值、方差和协方差不变,更常用且适用范围更广,是时间序列分析中主要使用的平稳性定义
严平稳序列通常也满足宽平稳的条件(一旦高阶矩不变,低阶矩自然也不会变),宽平稳不能反推为严平稳
特例1:柯西分布的严平稳序列不能推出宽平稳
柯西分布的随机变量没有定义的均值和方差,因此它不满足宽平稳条件,因为宽平稳要求存在有限的均值和方差。柯西分布可以构造一个严平稳序列,它满足所有时间点的联合分布不随时间变化,因此是严平稳的。由于没有一阶和二阶矩,无法验证其宽平稳性
严平稳通常可以推出宽平稳,但在一些特殊情况下,比如当序列的低阶矩不存在时,严平稳并不能保证宽平稳。
特例2:多元正态分布的宽平稳可以推出严平稳
正常情况下,宽平稳无法反推出严平稳,因为它没有涉及高阶矩。
在多元正态分布中,序列的联合分布由均值和协方差完全决定,而宽平稳条件确保这些不随时间变化,因此其高阶矩也不会变。
如果一个时间序列服从多元正态分布,只要它满足二阶平稳(即宽平稳条件),那么可以推导出该序列也是严平稳的。
三、平稳时间序列的统计性质
1. 常数均值:平稳时间序列的均值在时间上保持不变
2.自协方差函数和自相关函数只依赖于时间的平移长度k,而与具体的时间点无关
3.自相关系数的性质
(1)规范性:自相关系数的值范围在 [−1,1]之间。1 表示完全正相关,-1 表示完全负相关,而 0 表示无相关
(2)对称性:正向延迟和反向延迟的自相关系数相同
(3)非负定性 :对于任何正整数 m 和任意延迟 k,自相关系数矩阵是非负定的。
(4)对应模型:一个平稳时间序列可以唯一确定其自相关函数,但反过来,自相关函数未必唯一对应于一个平稳时间序列。