相关系数
两个随机变量
X
X
X和
Y
Y
Y的相关系数定义如下:
ρ
x
,
y
=
C
o
v
(
X
,
Y
)
V
a
r
(
X
)
V
a
r
(
Y
)
=
E
[
(
X
−
μ
x
)
(
Y
−
μ
y
)
]
E
(
X
−
μ
x
)
2
E
(
Y
−
μ
y
)
2
\begin{aligned} \rho_{x,y} &= \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} \\ &= \frac{E[(X-\mu_x)(Y-\mu_y)]}{\sqrt{E(X-\mu_x)^2E(Y-\mu_y)^2}} \end{aligned}
ρx,y=Var(X)Var(Y)Cov(X,Y)=E(X−μx)2E(Y−μy)2E[(X−μx)(Y−μy)]
其中,
μ
x
,
μ
y
\mu_x,\mu_y
μx,μy分别表示
X
,
Y
X,Y
X,Y的均值,并假定方差是存在的。相关系数度量的是
X
X
X和
Y
Y
Y线性相关的程度。相关系数具有以下几个性质:
- − 1 ≤ ρ x , y ≤ 1 -1 \leq \rho_{x,y} \leq 1 −1≤ρx,y≤1,说明相关系数处于 − 1 -1 −1到 1 1 1之间;
- ρ x , y = ± 1 \rho_{x,y} = \pm1 ρx,y=±1的充分必要条件是, X X X和 Y Y Y几乎处处有线性关系,即,存在 a ( ≠ 0 ) a(\neq0) a(=0)与 b b b,使得 P ( Y = a X + b ) = 1 P(Y=aX+b)=1 P(Y=aX+b)=1。
当我们有样本
{
(
x
t
,
y
t
)
}
t
=
1
T
\{(x_t,y_t)\}_{t=1}^T
{(xt,yt)}t=1T,相关系数可以由样本相关系数估计出来,如下所示:
ρ
^
x
,
y
=
∑
t
=
1
T
(
x
t
−
x
‾
)
(
y
t
−
y
‾
)
∑
t
=
1
T
(
x
t
−
x
‾
)
2
∑
t
=
1
T
(
y
t
−
y
‾
)
2
\hat{\rho}_{x,y} = \frac{\sum_{t=1}^T(x_t-\overline{x})(y_t-\overline{y})}{\sqrt{\sum_{t=1}^T(x_t-\overline{x})^2 \sum_{t=1}^T(y_t-\overline{y})^2}}
ρ^x,y=∑t=1T(xt−x)2∑t=1T(yt−y)2∑t=1T(xt−x)(yt−y)
其中,
x
‾
,
y
‾
\overline{x},\overline{y}
x,y分别是
X
X
X和
Y
Y
Y的样本均值。
自相关函数(Autocorrelation Function,ACF)1
对于时间序列
r
t
r_t
rt,当我们考虑
r
t
r_t
rt与它的过去值
r
t
−
i
r_{t-i}
rt−i的线性相依关系时,可以把相关系数的概念推广到自相关系数。
r
t
r_t
rt与
r
t
−
l
r_{t-l}
rt−l的相关系数称为
r
t
r_t
rt的间隔为
l
l
l的自相关系数,通常记为
ρ
l
\rho_l
ρl,在弱平稳性的假定条件下,它只是关于
l
l
l的函数:
ρ
l
=
C
o
v
(
r
t
,
r
t
−
l
)
V
a
r
(
r
t
)
V
a
r
(
r
t
−
l
)
=
C
o
v
(
r
t
,
r
t
−
l
)
V
a
r
(
r
t
)
=
γ
l
γ
0
\begin{aligned} \rho_l &= \frac{Cov(r_t,r_{t-l})}{\sqrt{Var(r_t)Var(r_{t-l})}} \\ &= \frac{Cov(r_t,r_{t-l})}{Var(r_t)} \\ &= \frac{\gamma_l}{\gamma_0} \end{aligned}
ρl=Var(rt)Var(rt−l)Cov(rt,rt−l)=Var(rt)Cov(rt,rt−l)=γ0γl
这里用到了弱平稳性的性质
V
a
r
(
r
t
)
=
V
a
r
(
r
t
−
l
)
Var(r_t)=Var(r_{t-l})
Var(rt)=Var(rt−l)。由定义2,我们有:
- ρ 0 = 1 \rho_0=1 ρ0=1
- ρ l = ρ − l \rho_l=\rho_{-l} ρl=ρ−l
- − 1 ≤ ρ l ≤ 1 -1 \leq \rho_l \leq 1 −1≤ρl≤1
当且仅当对所有的 l > 0 l>0 l>0,都有 ρ l = 0 \rho_l=0 ρl=0,则称一个弱平稳序列是序列不相关的。
样本自相关系数
对一个给定的样本序列
{
r
t
}
t
=
1
T
\{r_t\}_{t=1}^T
{rt}t=1T,设
r
‾
\overline{r}
r 是样本均值,则
r
t
r_t
rt的间隔为1的样本自相关系数:
ρ
^
1
=
∑
t
=
2
T
(
r
t
−
r
‾
)
(
r
t
−
1
−
r
‾
)
∑
t
=
1
T
(
r
t
−
r
‾
)
2
\hat{\rho}_1 = \frac{\sum_{t=2}^T (r_t-\overline{r})(r_{t-1}-\overline{r})}{\sum_{t=1}^T (r_t-\overline{r})^2}
ρ^1=∑t=1T(rt−r)2∑t=2T(rt−r)(rt−1−r)
在某些一般性条件下,
ρ
^
1
\hat{\rho}_1
ρ^1是
ρ
1
\rho_1
ρ1的相合估计。
r
t
r_t
rt的间隔为
l
l
l的样本自相关系数可定义为:
ρ
^
l
=
∑
t
=
l
+
1
T
(
r
t
−
r
‾
)
(
r
t
−
l
−
r
‾
)
∑
t
=
1
T
(
r
t
−
r
‾
)
2
,
0
≤
l
<
T
−
1
\hat{\rho}_l = \frac{\sum_{t=l+1}^T (r_t-\overline{r})(r_{t-l}-\overline{r})}{\sum_{t=1}^T (r_t-\overline{r})^2},0 \leq l < T-1
ρ^l=∑t=1T(rt−r)2∑t=l+1T(rt−r)(rt−l−r),0≤l<T−1
若
{
r
t
}
\{r_t\}
{rt}是一个独立同分布序列,满足
E
(
r
t
2
)
<
∞
E(r_t^2)<\infty
E(rt2)<∞,则对任意固定的正整数
l
l
l,
ρ
^
l
\hat{\rho}_l
ρ^l渐进的服从均值为0,方差为
1
T
\frac{1}{T}
T1的正态分布。