时间序列分析系列(一) : 基本概念

最新推荐文章于 2023-10-03 09:58:54 发布

苏偃

最新推荐文章于 2023-10-03 09:58:54 发布

阅读量2.1k

点赞数 2

分类专栏：时间序列分析笔记

本文链接：https://blog.csdn.net/qq_45302293/article/details/114411112

版权

时间序列分析笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

这一个系列应该是博主上时间序列课程时候的笔记。这门课程对未来的研究实际上十分重要, 所以, 我决定尽量每周上完时间序列课程之后能够好好记记笔记和思路。整体的写作风格应该是我假想我要讲给某个还不懂时间序列的同学听(据费曼学习法说,好像这样的效率是最高的), 虽然整个文风看起来有些weird, 但是还是决定就这样下去吧。之后也可能会放上一些上机作业R(maybe Python)的相关的代码。受水平限制, 欢迎大家来这里捉虫。其实自己很大程度上不算是统计专业的, 所以有些用词并不严谨, 大多还是根据自己的理解来的。以上。

时间序列的概述

在统计方法的研究中,我们一般研究的data有三种类型 :

Crossing Data
Time Series Data
Pannel Data

在时间序列这门课程中我们研究的便是Time Series Data, 此处对Time Series Data的定义为, 一个随机变量序列 $\left\{X_t, t \in T \right\}$ , 将其成为一个随机过程; 此处 $t$ 可以理解为一个观测值在不同的时间点的取值; 例如, 湖北省的2000年~2020年的GDP的数据便是一组时间序列数据。但是在此处需要注意的是时间序列数据是针对单个不变的个体的, 只在时间上具有延展性, 在空间上并不具有延展性; 也就是说如果一组数据中, 同样承接上面所给出的例子, 2000年~2020年的数据中包含了中国各个省份、直辖市以及港澳台的GDP数据的话, 则被称之为面板数据(Pannel Data)。而截面数据(Crossing Data)则完全不涉及时间的概念, 仅仅在空间上具有延展性, 也就是指在同一个时间节点, 从总体中进行抽样的所形成的样本的数据类型。

时间序列里面的基本概念

在我们给出了时间序列的基本的定义和概念之后, 要想对时间序列进行进一步的研究的, 则需要对时间序列的特征统计量进行描述。在对特征统计量进行了定义之后我们便可以开始讨论一些时间序列分析中特有的概念。

均值、方差、协方差

首先我们对其均值进行刻画 :
$\mu_t=E(X_t), t\in T \tag{1}$

也就是说 $\mu_t$ 实际上是这一个随机过程在 $t$ 时刻的期望值。

在对均值进行刻画之后, 我们可以对方差以及协方差进行定义。首先我们对方差进行相关的定义：
$(X_t) = E(X_t^2)-\mu_t^2 \tag{2}$

对其自协方差函数进行相关的定义:
$\gamma_{t,k} = Cov(X_{t-k}, X_t) = E(X_{t-k}X_t)-\mu_t\mu_s, k = 0,1,2,\ldots\tag{3}$

当 $k = 0$ 时不难得知, 此时的自协方差与方差相等, 也就是说, 我们在给定方差的情况下, 无论 $t$ 的取值是多少, 我们的自协方差 $\gamma_{t,0}$ 始终是相等的。那么此时回想相关系数的含义, 当我们通过除以标准差来消除两个随机变量之间刻画变量趋势的量纲的时候, 我们便可以得到一个非常有用的定义。给出自相关系数函数 $\rho_{t,k}$ 的定义:
$\rho_{t,k} = \frac{\gamma_{t,k}}{\gamma_{t,0}} \tag{4}$

此时根据以上的条件,我们便能推出 $\rho_{t,k}$ 的大小可以只由 $k$ 确定。

随机游走

在传统的回归分析中的均值回归现象

传统的回归分析(一般针对截面数据)一般都是条件均值模型, 使用矩阵形式进行表达 :

$E(Y\mid X) = X\cdot \beta \tag{5}$

其中经典假定主要包含三条 : 针对解释变量与被解释变量呈现线性关系, 误差项零均值, 同方差。在这种假定之下, 我们便能够写出式(5)给出的公式; 由于其解释变量与被解释变量是线性关系, 那么使用 $\hat{y}$ 来表示我们最终拟合的数据, 则 $\hat{y}$ 可以被理解为一个"中心"(均值), 好像对真实的数据有一种"吸引力"一般牵引着其回到 $\hat{y}$ 的位置; 假设使用单变量回归作为实例,则可以得出以下的图形, 当然这部分更多的内容还需要参考计量经济学和回归分析部分的内容。
通过统计模拟生成的图像可以发现拟合的各点总是围绕着直线

针对时间序列则会发现这种"牵引"现象失效

令 $e_1,e_2,\ldots$ 为均值为0, 且方差是 $\sigma_s^2$ 的独立同分布的随机变量序列, 此时考虑以下时间序列 $\left\{X_t,t\in T\right\}$ , 假设 $X_t=X_{t-1}+e_t$ ; 则有以下推导, 此时不妨先假设 $X_0=0$ :

$\begin{cases} X_0=0\\ X_1 = e_1\\ X_2= X_1+e_2\\ \vdots\\ X_t=X_{t-1}+e_t \end{cases} \tag{6}$

根据该式我们不难得到以下结论 :

$E(X_t)=0 \tag{7}$ $Var(X_t)=\sum_i \sigma_s^2 = t\cdot \sigma_s^2\tag{8}$

虽然均值仍然不发生改变, 但是随着时间的增加方差也不断增加, 最终变得越来越大, 也就是说, 此时均值的"牵引力"也会越来越弱, 此时如果使用图形来进行表示可以表示为下图, 通过分析下图可以发现下图的相关的内容呈现喇叭口状。

在这里插入图片描述
这个时候发现没有回归均值的趋势, 因为其方差在不断增大。也就是说方差的大小就像一条绳子的长短, 当方差大时,绳子便长, 则其可能偏离均值就越远; 当然从另外一个角度来理解, 方差大小代表了其偏离均值远近的可能性, 方差越小, 偏离越远的可能性越小, 当然也有可能偏离很远, 但是在统计中, 对于小概率事件通常认为是不可能发生的。那么既然方差越来越大, 则很多问题的不确定性将会越来越大, 这对于统计研究中将会成为一大难点。

谬误回归

此处采用古扎拉蒂版计量经济学中的例子, 考虑两个随机游走模型 $X_t, Y_t$ :

$X_t= X_{t-1}+e_t^0 \tag{9}$

$Y_t= Y_{t-1}+e_t^1\tag{10}$

此时对这两段序列(具有500个样本)进行回归会得到如下的结果, 发现对系数进行t检验是显著的, 但是从实际意义上来看, 这两段序列不应该有任何关系, 所以从这个例子可以发现, 这样做容易产生谬误, 这种现象。


	Dependent variable:

	Y_t

X_t	-0.682^***
	(0.074)

Constant	-13.272^***
	(0.416)

Observations	500
R²	0.144
Residual Std. Error	8.315 (df = 498)
F Statistic	83.813^*** (df = 1; 498)

Note:	^p<0.1; ^p<0.05; ^**p<0.01

弱平稳

从上面的讨论当中, 我们如果想要研究时间序列的话, 必须对序列的性质进行一些假定, 否则很容易出现所谓的谬误回归现象。在确定了我们能够研究什么样性质的序列之后, 我们即使在现实生活中没有找到这样的序列, 但是我们同样可以通过一些变换(很多时间序列的变换应该是差分)来达到我们研究某种现象的目的。

所以, 为了达到我们能够研究的目的, 我们对时间序列的性质作如下的规定:

均值在时间上为常数
对任意的 $t,k有\gamma_{t,k}=\gamma_{0,k}$

第二条性质实际上是在说任意时刻的方差相等, 以及自相关系数的大小仅仅与滞后的阶数有关。

满足以上两条性质, 可以将该序列称之为弱平稳序列, 那么对于弱平稳序列, 可以将滞后k阶的自协方差以及自相关系数分别写作: $\gamma_k,\rho_k$ 。

白噪声序列

可以看出来, 弱平稳序列能够解决掉随机游走序列中的方差无限增大, 最后以至于出现伪回归现象的问题。白噪声序列则是可以看做是在弱平稳概念上的一个加强的版本; 在回归分析中, 方程所包含的误差项就算是一种白噪声, 这种噪声是可以看做是对研究时间序列的变化趋势时是无害或者是可控的, 所以出将白噪声定义为: 零均值独立同分布的随机变量序列, 亦即回归分析中的经典假设; 值得一提的是即便模型的方差很大(R方很小), 但在经典假设的体系中, 模型仍然对现象具有解释意义, 只是解释的程度有所区别罢了。在时间序列中,其实思路应该和回归分析很相近, 主要都是为了得到白噪声这样的误差序列, 这样便能够进行统计推断, 将误差把握住, 同时使最终的模型对现象具有解释意义。