协方差的定义
设 ( X , Y ) (X,Y) (X,Y)是二维随机变量,若: E [ X − E ( X ) ] [ Y − E ( Y ) ] E[X-E(X)][Y-E(Y)] E[X−E(X)][Y−E(Y)]存在,则称它为随机变量 X X X与 Y Y Y的协方差,记为 c o v ( X , Y ) cov(X,Y) cov(X,Y),有 c o v ( X , Y ) = E [ X − E ( X ) ] [ Y − E ( Y ) ] = E ( X Y ) − E ( X ) E ( Y ) = ∫ − ∞ + ∞ x y f ( x , y ) d x d y − ∫ − ∞ + ∞ x f ( x , y ) d x ∫ − ∞ + ∞ y f ( x , y ) d y \begin{aligned} cov(X,Y) & = E[X-E(X)][Y-E(Y)] \\ & = E(XY)-E(X)E(Y) \\ & = \int_{-\infty}^{+\infty}xyf(x,y)dxdy-\int_{-\infty}^{+\infty}xf(x,y)dx\int_{-\infty}^{+\infty}yf(x,y)dy \\ \end{aligned} cov(X,Y)=E[X−E(X)][Y−E(Y)]=E(XY)−E(X)E(Y)=∫−∞+∞xyf(x,y)dxdy−∫−∞+∞xf(x,y)dx∫−∞+∞yf(x,y)dy
协方差的性质
- c o v ( X , Y ) = c o v ( Y , X ) cov(X,Y)=cov(Y,X) cov(X,Y)=cov(Y,X)
- c o v ( X , X ) = D ( X ) cov(X,X)=D(X) cov(X,X)=D(X)
- c o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) cov(X,Y)=E(XY)-E(X)E(Y) cov(X,Y)=E(XY)−E(X)E(Y)
- D ( X ± Y ) = D ( X ) + D ( Y ) ± 2 c o v ( X , Y ) D(X \pm Y)=D(X)+D(Y) \pm 2cov(X,Y) D(X±Y)=D(X)+D(Y)±2cov(X,Y)
- c o v ( a X , b Y ) = a b c o v ( X , Y ) cov(aX,bY)=abcov(X,Y) cov(aX,bY)=abcov(X,Y), a a a、 b b b是常数
- c o v ( X 1 + X 2 , Y ) = c o v ( X 1 , Y ) + c o v ( X 2 , Y ) cov(X_1+X_2,Y)=cov(X_1,Y)+cov(X_2,Y) cov(X1+X2,Y)=cov(X1,Y)+cov(X2,Y)
- 若 X X X与 Y Y Y相互独立,则 c o v ( X , Y ) = 0 cov(X,Y)=0 cov(X,Y)=0
- 若 c o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) = 0 cov(X,Y)=E(XY)-E(X)E(Y)=0 cov(X,Y)=E(XY)−E(X)E(Y)=0或 D ( X ± Y ) = D ( X ) + D ( Y ) ± 2 c o v ( X , Y ) = 0 D(X \pm Y)=D(X)+D(Y) \pm 2cov(X,Y)=0 D(X±Y)=D(X)+D(Y)±2cov(X,Y)=0则 X X X与 Y Y Y不相关
协方差的定义
设
c
o
v
(
X
,
Y
)
cov(X,Y)
cov(X,Y)存在,且
D
(
X
)
,
D
(
Y
)
D(X),D(Y)
D(X),D(Y)不为零,则称
c
o
v
(
X
,
Y
)
D
(
X
)
D
(
Y
)
\frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
D(X)D(Y)cov(X,Y)为随机变量
X
X
X与
Y
Y
Y的相关系数或标准协方差,记为
ρ
X
Y
\rho_{XY}
ρXY,即
ρ
X
Y
=
c
o
v
(
X
,
Y
)
D
(
X
)
D
(
Y
)
\rho_{XY}=\frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
ρXY=D(X)D(Y)cov(X,Y)
由
c
o
v
(
X
,
Y
)
=
E
[
X
−
E
(
X
)
]
[
Y
−
E
(
Y
)
]
cov(X,Y) = E[X-E(X)][Y-E(Y)]
cov(X,Y)=E[X−E(X)][Y−E(Y)]可得,设
X
∗
=
X
−
E
(
X
)
D
(
X
)
,
Y
∗
=
Y
−
E
(
Y
)
D
(
Y
)
X^*=\frac{X-E(X)}{\sqrt{D(X)}},Y^*=\frac{Y-E(Y)}{\sqrt{D(Y)}}
X∗=D(X)X−E(X),Y∗=D(Y)Y−E(Y)即
X
∗
,
Y
∗
X^*,Y^*
X∗,Y∗分别是
X
,
Y
X,Y
X,Y的标准化随机变量,由协方差的定义,可知
ρ
X
Y
=
c
o
v
(
X
∗
,
Y
∗
)
\rho_{XY}=cov(X^*,Y^*)
ρXY=cov(X∗,Y∗)
相关系数的意义
已知 ρ X Y \rho_{XY} ρXY是 X , Y X,Y X,Y的相关系数,则有定理:
- ∣ ρ X Y ∣ ⩽ 1 |\rho_{XY}| \leqslant 1 ∣ρXY∣⩽1;( ρ X Y > 0 \rho_{XY} >0 ρXY>0称正相关, ρ X Y < 0 \rho_{XY} < 0 ρXY<0称负相关)
- ∣ ρ X Y ∣ = 1 |\rho_{XY}| = 1 ∣ρXY∣=1的充要条件是:存在常数 a , b a,b a,b,使: P { Y = a X + b } = 1 P\{Y=aX+b\}=1 P{Y=aX+b}=1即 X X X与 Y Y Y以概率1存在线性关系
该定理说明了,相关系数 ρ X Y \rho_{XY} ρXY描述了随机变量 X X X、 Y Y Y的线性相关程度, ∣ ρ X Y ∣ |\rho_{XY}| ∣ρXY∣越接近1,则 X X X与 Y Y Y之间越接近线性关系。当 ∣ ρ ∣ = 1 |\rho|=1 ∣ρ∣=1时, X X X与 Y Y Y存在线性关系。特别地,如果 ρ X Y = 0 \rho_{XY}=0 ρXY=0,则 X X X与 Y Y Y不相关,说明 X X X与 Y Y Y没有线性关系。
应当注意到,两个随机变量
X
X
X与
Y
Y
Y之间的不相关性和相互独立型一般是不同的。
由相关系数的定义可以推导得,当
X
X
X与
Y
Y
Y相互独立时,必有
ρ
X
Y
=
0
\rho_{XY}=0
ρXY=0,即
X
X
X与
Y
Y
Y不相关,但反之则不然。
独立性是比不相关性更为严格的条件,独立性反映
X
X
X与
Y
Y
Y之间不存在任何关系,而不相关性只是就线性关系而已的,即使
X
X
X与
Y
Y
Y不相关,它们之间也可能存在某种函数关系。