概率统计Python计算：随机变量的线性回归

戌崂石

已于 2024-05-22 10:04:32 修改

阅读量544

点赞数 1

分类专栏：概率统计文章标签：概率论

于 2021-05-13 15:50:13 首次发布

本文链接：https://blog.csdn.net/u012958850/article/details/116752286

版权

概率统计专栏收录该内容

76 篇文章 29 订阅

订阅专栏

在这里插入图片描述
若随机向量 $(X, Y)$ 存在相关系数 $\rho_{XY}$ ，由
$E[(Y-(aX+b))^2]=D(Y)+a^2D(X)-2a\text{Cov}(Y, X)+(E(Y)-aE(X)-b)^2\\ =D(Y)(1-\rho_{XY}^{2})+D(X)\left(a-\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}\right)^2+(E(Y)-aE(X)-b)^2$
当
$\begin{cases}a=\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}\\b=E(Y)-aE(X)\end{cases}$
时，即
$\begin{cases}a=\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}\\b=E(Y)-\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}E(X)\end{cases}$
时 $E[(Y-(aX+b))^2]$ 最小，等于 $D(Y)(1-\rho_{XY}^{2})$ 。此时，称 $a X + b$ 为 $Y$ 对于 $X$ 的线性回归。 $Y$ 对 $X$ 的线性回归 $a X + b$ 中系数 $a$ 、 $b$ 的取值 $\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}$ 和 $E(Y)-\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}E(X)$ 称为 $Y$ 对 $X$ 的回归系数。相仿地， $X$ 对 $Y$ 的线性回归为 $aY + b$ ，其中
$\begin{cases}a=\rho_{XY}\sqrt{\frac{D(X)}{D(Y)}}\\b=E(X)-\rho_{XY}\sqrt{\frac{D(X)}{D(Y)}}E(Y)\end{cases}.$
例1 设随机向量 $(X, Y)$ 的联合分布律为
在这里插入图片描述
计算 $Y$ 对于 $X$ 的线性回归。
解：先计算出 $X$ 和 $Y$ 的边缘分布：

和

从而算得 $E(X)=\frac{8}{3}$ ， $E (Y) = 3$ ， $D (X) = 2.22$ ， $D (Y) = 2$ 。
又 $E (X Y) = 8.125$ ，于是 $\text{Cov}(X, Y)=E(XY)-E(X)E(Y)=0.125$ 。进而 $\rho_{XY}=\frac{\text{Cov}(X, Y)}{\sqrt{D(X)}\sqrt{D(Y)}}=0.593$ 。最终得到
$\begin{cases}a=\rho_{XY}\sqrt{\frac{D(Y)}{D(X)}}=0.056\\b=E(Y)-aE(X)=2.85\end{cases}.$
即， $Y$ 对于 $X$ 的线性回归为 $0.056 X + 2.85$ 。
下列代码验算本例的计算结果。

import numpy as np                                      #导入numpy
X=np.array([1, 2, 3, 4, 5])                             #X的取值
Y=np.array([1, 2, 3, 4, 5])                             #Y的取值
Pxy=np.array([[1/12, 1/24, 1/12, 1/12, 1/24],           #联合分布律的概率矩阵
             [1/24, 1/24, 1/24, 0, 1/24],
             [0, 1/24, 1/24, 1/24, 1/24],
             [1/24, 1/24, 0, 1/24, 1/24],
             [1/30, 1/30, 1/30, 1/30, 1/30]])
Ex=expect(Pxy, X)                                       #E(X)
Ex2=expect(Pxy, X, func=lambda x, y: x*x)               #E(X^2)
sigmax=np.sqrt(Ex2-Ex**2)                               #X的标准差
Ey=expect(Pxy,Yv=Y, func=lambda x,y:y)                  #E(Y)
Ey2=expect(Pxy, Yv=Y, func=lambda x, y: y*y)            #E(Y^2)
sigmay=np.sqrt(Ey2-Ey**2)                               #Y的标准差
Exy=expect(Pxy, X, Y, lambda x, y:x*y)                  #E(XY)
rho=rhoxy(Exy, Ex, Ey, sigmax, sigmay)                  #X，Y的相关系数
a=rho*sigmay/sigmax                                     #回归系数a
b=Ey-a*Ex                                               #回归系数b
print('Y=%.3f*X+%.3f'%(a, b))                           #Y对X的线性回归

借助程序中各行注释，不难理解代码意义。其中，第9、10、12、13和15调用计算离散型随机变量期望的函数expect（定义见博文《离散型自定义分布数学期望的计算》），分别计算 $E (X)$ ， $E(X^2)$ ， $E (Y)$ ， $E(Y^2)$ 及 $E (X Y)$ 。第16行调用计算随机变量 $(X, Y)$ 的相关系数 $\rho_{XY}$ 的函数rhoxy（定义见博文《协方差与相关系数计算》）运行程序，输出

Y=0.056*X+2.850

写博不易，敬请支持：
如果阅读本文于您有所获，敬请点赞、评论、收藏，谢谢大家的支持！
代码诚可贵，原理价更高。若为AI学，读正版书好。
返回《导引》

戌崂石

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
5
评论
概率统计Python计算：随机变量的线性回归

若随机向量(X,Y)(X,Y)(X,Y)存在相关系数ρXY\rho_{XY}ρXY，由E[(Y−(aX+b))2]=D(Y)+a2D(X)−2aCov(Y,X)+(E(Y)−aE(X)−b)2=D(Y)(1−ρXY2)+D(X)(a−ρXYD(Y)D(X))2+(E(Y)−aE(X)−b)2E[(Y-(aX+b))^2]=D(Y)+a^2D(X)-2a\text{Cov}(Y, X)+(E(Y)-aE(X)-b)^2\\ =D(Y)(1-\rho_{XY}^{2})+D(X)\left(a-\r
复制链接

扫一扫

专栏目录