若随机向量
(
X
,
Y
)
(X,Y)
(X,Y)存在相关系数
ρ
X
Y
\rho_{XY}
ρXY,由
E
[
(
Y
−
(
a
X
+
b
)
)
2
]
=
D
(
Y
)
+
a
2
D
(
X
)
−
2
a
Cov
(
Y
,
X
)
+
(
E
(
Y
)
−
a
E
(
X
)
−
b
)
2
=
D
(
Y
)
(
1
−
ρ
X
Y
2
)
+
D
(
X
)
(
a
−
ρ
X
Y
D
(
Y
)
D
(
X
)
)
2
+
(
E
(
Y
)
−
a
E
(
X
)
−
b
)
2
E[(Y-(aX+b))^2]=D(Y)+a^2D(X)-2a\text{Cov}(Y, X)+(E(Y)-aE(X)-b)^2\\ =D(Y)(1-\rho_{XY}^{2})+D(X)\left(a-\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}\right)^2+(E(Y)-aE(X)-b)^2
E[(Y−(aX+b))2]=D(Y)+a2D(X)−2aCov(Y,X)+(E(Y)−aE(X)−b)2=D(Y)(1−ρXY2)+D(X)(a−ρXYD(X)D(Y))2+(E(Y)−aE(X)−b)2
当
{
a
=
ρ
X
Y
D
(
Y
)
D
(
X
)
b
=
E
(
Y
)
−
a
E
(
X
)
\begin{cases}a=\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}\\b=E(Y)-aE(X)\end{cases}
{a=ρXYD(X)D(Y)b=E(Y)−aE(X)
时,即
{
a
=
ρ
X
Y
D
(
Y
)
D
(
X
)
b
=
E
(
Y
)
−
ρ
X
Y
D
(
Y
)
D
(
X
)
E
(
X
)
\begin{cases}a=\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}\\b=E(Y)-\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}E(X)\end{cases}
⎩
⎨
⎧a=ρXYD(X)D(Y)b=E(Y)−ρXYD(X)D(Y)E(X)
时
E
[
(
Y
−
(
a
X
+
b
)
)
2
]
E[(Y-(aX+b))^2]
E[(Y−(aX+b))2]最小,等于
D
(
Y
)
(
1
−
ρ
X
Y
2
)
D(Y)(1-\rho_{XY}^{2})
D(Y)(1−ρXY2)。此时,称
a
X
+
b
aX+b
aX+b为
Y
Y
Y对于
X
X
X的线性回归。
Y
Y
Y对
X
X
X的线性回归
a
X
+
b
aX+b
aX+b中系数
a
a
a、
b
b
b的取值
ρ
X
Y
D
(
Y
)
D
(
X
)
\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}
ρXYD(X)D(Y)和
E
(
Y
)
−
ρ
X
Y
D
(
Y
)
D
(
X
)
E
(
X
)
E(Y)-\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}E(X)
E(Y)−ρXYD(X)D(Y)E(X)称为
Y
Y
Y对
X
X
X的回归系数。相仿地,
X
X
X对
Y
Y
Y的线性回归为
a
Y
+
b
aY+b
aY+b,其中
{
a
=
ρ
X
Y
D
(
X
)
D
(
Y
)
b
=
E
(
X
)
−
ρ
X
Y
D
(
X
)
D
(
Y
)
E
(
Y
)
.
\begin{cases}a=\rho_{XY}\sqrt{\frac{D(X)}{D(Y)}}\\b=E(X)-\rho_{XY}\sqrt{\frac{D(X)}{D(Y)}}E(Y)\end{cases}.
⎩
⎨
⎧a=ρXYD(Y)D(X)b=E(X)−ρXYD(Y)D(X)E(Y).
例1 设随机向量
(
X
,
Y
)
(X,Y)
(X,Y)的联合分布律为
计算
Y
Y
Y对于
X
X
X的线性回归。
解: 先计算出
X
X
X和
Y
Y
Y的边缘分布:
和
从而算得
E
(
X
)
=
8
3
E(X)=\frac{8}{3}
E(X)=38,
E
(
Y
)
=
3
E(Y)=3
E(Y)=3,
D
(
X
)
=
2.22
D(X)=2.22
D(X)=2.22,
D
(
Y
)
=
2
D(Y)=2
D(Y)=2。
又
E
(
X
Y
)
=
8.125
E(XY)=8.125
E(XY)=8.125,于是
Cov
(
X
,
Y
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
=
0.125
\text{Cov}(X, Y)=E(XY)-E(X)E(Y)=0.125
Cov(X,Y)=E(XY)−E(X)E(Y)=0.125。进而
ρ
X
Y
=
Cov
(
X
,
Y
)
D
(
X
)
D
(
Y
)
=
0.593
\rho_{XY}=\frac{\text{Cov}(X, Y)}{\sqrt{D(X)}\sqrt{D(Y)}}=0.593
ρXY=D(X)D(Y)Cov(X,Y)=0.593。最终得到
{
a
=
ρ
X
Y
D
(
Y
)
D
(
X
)
=
0.056
b
=
E
(
Y
)
−
a
E
(
X
)
=
2.85
.
\begin{cases}a=\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}=0.056\\b=E(Y)-aE(X)=2.85\end{cases}.
{a=ρXYD(X)D(Y)=0.056b=E(Y)−aE(X)=2.85.
即,
Y
Y
Y对于
X
X
X的线性回归为
0.056
X
+
2.85
0.056X+2.85
0.056X+2.85。
下列代码验算本例的计算结果。
import numpy as np #导入numpy
X=np.array([1, 2, 3, 4, 5]) #X的取值
Y=np.array([1, 2, 3, 4, 5]) #Y的取值
Pxy=np.array([[1/12, 1/24, 1/12, 1/12, 1/24], #联合分布律的概率矩阵
[1/24, 1/24, 1/24, 0, 1/24],
[0, 1/24, 1/24, 1/24, 1/24],
[1/24, 1/24, 0, 1/24, 1/24],
[1/30, 1/30, 1/30, 1/30, 1/30]])
Ex=expect(Pxy, X) #E(X)
Ex2=expect(Pxy, X, func=lambda x, y: x*x) #E(X^2)
sigmax=np.sqrt(Ex2-Ex**2) #X的标准差
Ey=expect(Pxy,Yv=Y, func=lambda x,y:y) #E(Y)
Ey2=expect(Pxy, Yv=Y, func=lambda x, y: y*y) #E(Y^2)
sigmay=np.sqrt(Ey2-Ey**2) #Y的标准差
Exy=expect(Pxy, X, Y, lambda x, y:x*y) #E(XY)
rho=rhoxy(Exy, Ex, Ey, sigmax, sigmay) #X,Y的相关系数
a=rho*sigmay/sigmax #回归系数a
b=Ey-a*Ex #回归系数b
print('Y=%.3f*X+%.3f'%(a, b)) #Y对X的线性回归
借助程序中各行注释,不难理解代码意义。其中,第9、10、12、13和15调用计算离散型随机变量期望的函数expect(定义见博文《离散型自定义分布数学期望的计算》),分别计算 E ( X ) E(X) E(X), E ( X 2 ) E(X^2) E(X2), E ( Y ) E(Y) E(Y), E ( Y 2 ) E(Y^2) E(Y2)及 E ( X Y ) E(XY) E(XY)。第16行调用计算随机变量 ( X , Y ) (X, Y) (X,Y)的相关系数 ρ X Y \rho_{XY} ρXY的函数rhoxy(定义见博文《协方差与相关系数计算》)运行程序,输出
Y=0.056*X+2.850
写博不易,敬请支持:
如果阅读本文于您有所获,敬请点赞、评论、收藏,谢谢大家的支持!
代码诚可贵,原理价更高。若为AI学,读正版书好。
返回《导引》