（本科·数理统计·含例题解析）回归分析—

本文链接：https://blog.csdn.net/2504_91219670/article/details/147918247

一、从二维正态条件数学期望作为引入

例：若 $(\xi,\eta)$ 是服从 $N ( a _ { 1 } , a _ { 2 } , \sigma _ { 1 } ^ { 2 } , \sigma _ { 2 } ^ { 2 } , \rho )$ 分布的二维随机变量，如果已知 $\eta=y$ ，试求 $E ( \xi | \eta = y )$ 。

解：根据二维随机变量分布的密度函数，可以得出

$p _ { \xi | \eta } ( x | y ) = \frac { 1 } { \sqrt { 2 \pi } \sigma _ { 1 } \sqrt { 1 - \rho ^ { 2 } } } e ^ { - \frac { 1 } { 2 \sigma _ { 1 } ^ { 2 } ( 1 - \rho ^ { 2 } ) } } \left\{ x - \left[ a _ { 1 } + \rho \frac { \sigma _ { 1 } } { \sigma _ { 2 } } ( y - a _ { 2 } ) \right] \right\} ^ { 2 }$

因此，条件数学期望为

$E ( \xi | \eta = y ) = a _ { 1 } + \rho \frac { \sigma _ { 1 } } { \sigma _ { 2 } } ( y - a _ { 2 } )$

此时如果把

$(a_1+\rho \frac{\sigma_1}{\sigma_2}(y-a_2),y)$

画在平面直角坐标系中，它是一条直线。这条直线描述了 $\xi$ 依赖 $\eta$ 的关系，常常称为回归直线。一般表示为

$(E ( \xi | \eta = y ),y)$

或者

$(x,E(\eta|\xi=x))$

二、构建一元回归模型

将在不确定性关系中作为影响因素的变量称为自变量或解释变量，用 $X$ 表示，受 $X$ 取值影响的响应变量称为因变量，用 $Y$ 表示。假设 $X$ 是可控制变量（可以是随机变量，也可以不是），即它的取值是可以事先取定的， $Y$ 是可观测的随机变量，当 $X$ 取定一个数值 $x$ 时，就有一个随机变量 $Y$ 与之对应。令

$E(Y|X=x)=f(x)$

从而其他随机因素引起的偏差是

$\epsilon=Y-f(x)$

这时 $X$ 与 $Y$ 的不确定性关系表示为

$Y=E(Y|X=x)+\varepsilon=f(x)+\varepsilon$

对于一元线性回归模型来说，回归函数是线性函数，且可控制变量只有一个，即有如下形式的回归函数：

$y=f(x)=\beta_0+\beta_1x$

称为 $Y$ 对 $x$ 的一元线性回归方程或一元线性回归直线。

$\left\{\begin{matrix} Y=\beta_0+\beta_1x+\epsilon\\ \varepsilon \sim N(0,\sigma^2) \end{matrix}\right.$

即为一元线性回归模型。

三、一元线性回归模型求解方法

通常我们可以采用参数的最小二乘估计来确定 $\beta_0$ 和 $\beta_1$ 。

设 $(x_i,y_i) (i=1,2,...,n)$ 为取值的一组实验数据，假定满足如下一元线性回归模型：

$\left\{\begin{matrix} y _ { i } = \beta _ { 0 } + \beta _ { 1 } x _ { i } + \varepsilon _ { i } , i = 1 , 2 , \cdots , n \\ \varepsilon _ { i } \sim N ( 0 , \sigma ^ { 2 } ) , i = 1 , 2 , \cdots , n \\ Cov(\varepsilon_i,\varepsilon_j)=0,i\neq j,i,j=1,2,...,n \end{matrix}\right.$

在此基础上，确定回归系数 $\beta_0$ 和 $\beta_1$ 的估计值 $\widehat{\beta_0}$ 和 $\widehat{\beta_1}$ ，并使残差

$e_i=y_i-\widehat{y_i}(i=1,2,...,n)$

尽可能的小，其中 $\widehat{y_i}=\widehat{\beta_0}+\widehat{\beta_1}x_i(i=1,2,...,n)$

因此可总结为求解下面的优化问题：

$\min _ { \beta _ { 0 } , \beta _ { 1 } } \sum _ { i = 1 } ^ { n } ( y _ { i } - \beta _ { 0 } - \beta _ { 1 } x _ { i } ) ^ { 2 }$

具体的解法是通过正规方程组来求解：

$\left\{\begin{matrix} \frac { \partial Q } { \partial \beta _ { 0 } } = - 2 \sum _ { i = 1 } ^ { n } ( y _ { i } - \beta _ { 0 } - \beta _ { 1 } x _ { i } ) = 0\\ \frac { \partial Q } { \partial \beta _ { 1 } } = - 2 \sum _ { i = 1 } ^ { n } x_i( y _ { i } - \beta _ { 0 } - \beta _ { 1 } x _ { i } ) = 0 \end{matrix}\right.$

解得

$\left\{\begin{matrix} \widehat { \beta _ { 1 } } = \frac { \sum _ { i = 1 } ^ { n } ( x _ { i } - \overline { x } ) ( y _ { i } - \overline { y } ) } { \sum _ { i = 1 } ^ { x } ( x _ { i } - \overline { x } ) ^ { 2 } }\\ \widehat{\beta_0}=\overline{y}-\widehat{\beta_1}\overline{x} \end{matrix}\right.$

为了简记运算结果，规定如下符号的表示含义：

$l _ { x y } = \sum _ { i = 1 } ^ { n } ( x _ { i } - \overline { x } ) ( y _ { i } - \overline { y } ) = \sum _ { i = 1 } ^ { n } ( x _ { i } - \overline { x } ) y _ { i }$

$=\sum _ { i = 1 } ^ { n } x _ { i } ( y _ { i } - \overline { y } ) = \sum _ { i = 1 } ^ { n } x _ { i }y_i - n\overline { x } \cdot \overline { y }$

$l _ { x x } = \sum _ { i = 1 } ^ { n } ( x _ { i } - \overline { x } ) ^2 = \sum _ { i = 1 } ^ { n } x_i^2-n\overline{x}^2$

$l _ { yy } = \sum _ { i = 1 } ^ { n } ( y _ { i } - \overline { y } ) ^2 = \sum _ { i = 1 } ^ { n } y_i^2-n\overline{y}^2$

从而 $\widehat{\beta_0}$ 和 $\widehat{\beta_1}$ 可简记为

$\left\{\begin{matrix} \widehat{\beta_1}=\frac{l_xy}{l_xx}\\ \widehat{\beta_0}=\overline{y}-\widehat{\beta_1}\overline{x} \end{matrix}\right.$

这样的得到的 $\widehat{\beta_0}$ 和 $\widehat{\beta_1}$ 称为 $\beta_0$ 和 $\beta_1$ 的最小二乘估计，记作LSE。

$\widehat{y}=\widehat{\beta_0}+\widehat{\beta_1}x$

为 $y$ 关于 $x$ 的经验回归函数，称一元线性回归方程，其图形称为回归直线，且是 $\eta=E(y|x)$ 的最小二乘估计量。给定 $x=x_0$ 后，称 $\widehat{y}=\widehat{\beta_0}+\widehat{\beta_1}x_0$ 为回归值（也称拟合值、预测值）。

四、一元线性回归有关性质

性质一：残差和等于零，即 $\sum^n_{i=1}e_i=0$ 。

性质二： $(\overline{x},\overline{y})$ 在样本回归直线上。

性质三

$\widehat { \beta } _ { 0 } \sim N ( \beta _ { 0 } , ( \frac { 1 } { n } + \frac { \overline { x } ^ { 2 } } { l _ { x x } } ) \sigma ^ { 2 } )$
$\widehat { \beta } _ { 1 } \sim N ( \beta _ { 1 } , \frac { \sigma ^ { 2 } } { l _ { x x } } )$
$C o v ( \widehat { \beta } _ { 0 } , \widehat { \beta } _ { 1 } ) = - \frac { \overline { x } } { l _ { x x } } \sigma ^ { 2 }$
$\widehat { y } = \widehat { \beta } _ { 0 } + \widehat { \beta } _ { 1 } x \sim N ( \beta _ { 0 } + \beta _ { 1 } x , ( \frac { 1 } { n } + \frac { ( x - \overline { x } ) ^ { 2 } } { l _ { x x } } ) \sigma ^ { 2 } )$

五、讨论回归直线是否有意义

将残差 $e_i=y_i-\widehat{y_i}$ 分成两部分的差：

$e_i=y_i-\widehat{y_i}=(y_i-\overline{y})-(\widehat{y_i}-\overline{y})$

前者称为随机误差，是由随机因素引起的误差（当然是越小越好）；后者称为回归误差，有点类似于系统误差。

这三项竟然也满足平方和关系，证明的话就是展开后发现交叉项全部为0：

$\sum _ { i = 1 } ^ { n } ( y _ { i } - \overline { y } ) ^ { 2 } = \sum _ { i = 1 } ^ { n } ( y _ { i } - \widehat { y _ { i } } ) ^ { 2 } + \sum _ { i = 1 } ^ { n } ( \widehat { y _ { i } } - \overline { y } ) ^ { 2 }$

左端为总离差平方和，记为 $SS_t=\sum_{i=1}^n(y_i-\overline{y})^2$ ;

右端第一项为残差平方和，记为 $SS_e=\sum_{i=1}^n(y_i-\widehat{y})^2$ ;

右端第二项为回归平方和，记为 $SS_r=\sum_{i=1}^n(\widehat{y}-\overline{y})^2$ 。

关于这三个平方和具有如下性质

（1） $E[SS _ { e }] = ( n - 2 ) \sigma ^ { 2 }$ ，从而 $\widehat { \sigma } ^ { 2 } = \frac { S S_ { e } } { n - 2 }$ 是 $\sigma^2$ 的无偏估计。

（2） $SS_e$ 和 $SS_r$ 独立

（3） $\frac { S S_ { e }} { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n - 2 )$

（4）当 $\beta_1=0$ 时，有 $\frac { S S_ { r }} { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( 1 )$

直观上理解：只有当回归平方和 $SS_r$ 比残差平方和 $SS_e$ 更大时，回归方程的预测才有更高的精度。为了定量地说明回归方程的精度，有以下对回归方程精度检验的方法。

六、一元线性回归方程系数的假设检验

1. F检验

$H_0:\beta_1=0$ ， $H_1:\beta_1\not\neq0$

原假设 $H_0:\beta_1=0$ 为真时，

$E ( \frac { S S _ { r } } { n - 2 } ) = \sigma ^ { 2 } , E ( S S _ { r } ) = \sigma ^ { 2 }$

当原假设 $H_0:\beta_1=0$ 不为真时，即 $H_1:\beta_1\not\neq0$ ，

$E ( \frac { S S _ { e } } { n - 2 } ) = \sigma ^ { 2 } , E ( S S _ { r } ) > \sigma ^ { 2 }$

原假设 $H_0:\beta_1=0$ 为真时，选取如下统计量

$F=\frac{\widehat{\beta_1}^2l_{xx}}{()l_{yy}-\widehat{\beta_1}l_{xy})/(n-2)} \frac { S S _ { r } / \sigma ^ { 2 } } { S S _ { e } / \sigma ^ { 2 } ( n - 2 ) } = \frac { S S _ { r } / 1 } { S S _ { e } / ( n - 2 ) } \sim F ( 1 , n - 2 )$

在给定显著性水平 $\alpha$ 的情况下，

$P ( F \geq F _ { 1 - \alpha } ( 1 , n - 2 ) ) = \alpha$

拒绝域可以表示为

$[F_{1-\alpha}(1,n-2),+\infty]$

2. t检验

由于 $\widehat { \beta } _ { 1 } \sim N ( \beta _ { 1 } , \frac { \sigma ^ { 2 } } { l _ { x x } } )$ ， $\frac { S S_ { e }} { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n - 2 )$

$T = \frac { ( \widehat { \beta } _ { 1 } - \beta _ { 1 } ) \sqrt { ( n - 2 ) l _ { x x } } } { S _ { F } } - t ( n - 2 )$

3. r检验

由于 $SS_t=SS_e+SS_r$ ，从而 $1=\frac{SSe}{SSt}+\frac{SSr}{SSt}$ 。这相当于回归平方和残差平方在总体中占的比重。我们耳熟能详的相关系数计算公式如下：

$R _ { 1 } ^ { 2 } = \frac { S S _ { r } } { S S _ { t } } = \frac { \sum _ { i = 1 } ^ { n } ( \widehat { y } _ { i } - \overline { y } ) ^ { 2 } } { \sum _ { i = 1 } ^ { n } ( y _ { i } - \overline { y } ) ^ { 2 } }$