定义
对某一个或者一组变量X(t)进行观察测量,将在一系列时刻t1, t2, …, tn所得的离散序列集合,称之为时间序列。(注意, X ( t i ) X(t_i) X(ti)是一个随机变量)
特征
- 趋势:是时间序列在长时期内呈现出来的持续向上或持续向下的变动。
- 季节变动:是时间序列在一年内重复出现的周期性波动(周期固定)。它是诸如气候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果。
- 循环波动:是时间序列呈现出得非固定长度的周期性变动。循环波动的周期可能会持续一段时间,但与趋势不同,它不是朝着单一方向的持续变动,而是涨落相同的交替波动。
- 不规则波动:是时间序列中除去趋势、季节变动和周期波动之后的随机波动。不规则波动通常总是夹杂在时间序列中,致使时间序列产生一种波浪形或震荡式的变动。只含有随机波动的序列也称为平稳序列。
分析时间序列的本质
前提:我们相信数据的历史信息对未来的信息是有一定预测性的,且形式为多项式+高斯噪声
思路:我们分解t时间的值 x t x_t xt由两部分构成,一部分为由历史数据( x t − 1 , x t − 2 , . . . x_{t-1}, x_{t-2}, ... xt−1,xt−2,...)构造的多项式(ma, ar, arma就是多项式可能的形式);另一部分为高斯噪声;
一些概念
平稳性
时间序列的行为并不随时间改变
严平稳
多元分布保持不变。(X1,X2,X3)是个三维随机变量,(X3,X4,X5)也是个三维随机变量,严格平稳表示任何形如(Xn-1,Xn,Xn+1)的三维随机变量分布都是一样的。当然不仅仅是三维,而是任何维的随机变量分布不变。
严平稳表示的分布不随时间的改变而改变。我研究第1到第n个随机变量跟第2到第n+1个随机变量性质是一样的。
例子 * 白噪声
弱平稳
- 均值函数是常数函数
由各平稳的改变,没有趋势,所以任何一点t, X t X_t Xt的期望是常数 - 协方差函数仅与时间差相关
弱平稳没有分布与时间无关的特性,但弱平稳抓住了另一个不变性——相关系数。这说明 X 1 X_1 X1与 X 3 X_3 X3的相关系数, X 2 X_2 X2与 X 4 X_4 X4的相关系数都是一样的,即相关系数取决于时间间隔而非时间起点。
严平稳和弱平稳的区别
- 严平稳指概率分布和联合分布与起点时间选择无关
- 弱平稳指一阶矩和二阶矩与起点时间选择无关
为什么需要平稳性?
我们假设由历史数据 { x 0 , x 1 , x 2 , x 3 } \{x_0, x_1, x_2, x_3\} { x0,x1,x2,x3},一顿操作猛如虎,得到了模型 x i ^ = f ( x i − 1 , x i − 2 ) \hat{x_i}=f(x_{i-1}, x_{i-2}) xi^=f(xi−1,xi−2),即我发现 x 2 ≈ f ( x 1 , x 0 ) x_2 \approx f(x_1, x_0) x2≈f(x1,x0); x 3 ≈ f ( x 2 , x 1 ) x_3 \approx f(x_2, x_1) x3≈f(x2,x1)。所以,我们下面用 f ( x 2 , x 3 ) f(x_2, x_3) f(x2,x3)去预测 x 4 x_4 x4。
当我们要清醒,这样做work的前提是 ( x 0 , x 1 , x 2 ) (x_0, x_1, x_2) (x0,x1,x