(本科·数理统计·含例题解析)回归分析——一元线性回归模型

一、从二维正态条件数学期望作为引入

        例:若(\xi,\eta)是服从N ( a _ { 1 } , a _ { 2 } , \sigma _ { 1 } ^ { 2 } , \sigma _ { 2 } ^ { 2 } , \rho )分布的二维随机变量,如果已知\eta=y,试求E ( \xi | \eta = y )

        解:根据二维随机变量分布的密度函数,可以得出

p _ { \xi | \eta } ( x | y ) = \frac { 1 } { \sqrt { 2 \pi } \sigma _ { 1 } \sqrt { 1 - \rho ^ { 2 } } } e ^ { - \frac { 1 } { 2 \sigma _ { 1 } ^ { 2 } ( 1 - \rho ^ { 2 } ) } } \left\{ x - \left[ a _ { 1 } + \rho \frac { \sigma _ { 1 } } { \sigma _ { 2 } } ( y - a _ { 2 } ) \right] \right\} ^ { 2 }

        因此,条件数学期望为

E ( \xi | \eta = y ) = a _ { 1 } + \rho \frac { \sigma _ { 1 } } { \sigma _ { 2 } } ( y - a _ { 2 } )

        此时如果把

(a_1+\rho \frac{\sigma_1}{\sigma_2}(y-a_2),y)

        画在平面直角坐标系中,它是一条直线。这条直线描述了\xi依赖\eta的关系,常常称为回归直线。一般表示为

(E ( \xi | \eta = y ),y)

        或者

(x,E(\eta|\xi=x))

二、构建一元回归模型

        将在不确定性关系中作为影响因素的变量称为自变量或解释变量,用X表示,受X取值影响的响应变量称为因变量,用Y表示。假设X是可控制变量(可以是随机变量,也可以不是),即它的取值是可以事先取定的,Y是可观测的随机变量,当X取定一个数值x时,就有一个随机变量Y与之对应。令

E(Y|X=x)=f(x)

        从而其他随机因素引起的偏差是

\epsilon=Y-f(x)

        这时XY的不确定性关系表示为

Y=E(Y|X=x)+\varepsilon=f(x)+\varepsilon

        对于一元线性回归模型来说,回归函数是线性函数,且可控制变量只有一个,即有如下形式的回归函数:

y=f(x)=\beta_0+\beta_1x

        称为Yx的一元线性回归方程或一元线性回归直线。

\left\{\begin{matrix} Y=\beta_0+\beta_1x+\epsilon\\ \varepsilon \sim N(0,\sigma^2) \end{matrix}\right.

        即为一元线性回归模型。

三、一元线性回归模型求解方法

        通常我们可以采用参数的最小二乘估计来确定\beta_0\beta_1

        设(x_i,y_i) (i=1,2,...,n)为取值的一组实验数据,假定满足如下一元线性回归模型:

\left\{\begin{matrix} y _ { i } = \beta _ { 0 } + \beta _ { 1 } x _ { i } + \varepsilon _ { i } , i = 1 , 2 , \cdots , n \\ \varepsilon _ { i } \sim N ( 0 , \sigma ^ { 2 } ) , i = 1 , 2 , \cdots , n \\ Cov(\varepsilon_i,\varepsilon_j)=0,i\neq j,i,j=1,2,...,n \end{matrix}\right.

        在此基础上,确定回归系数\beta_0\beta_1的估计值\widehat{\beta_0}\widehat{\beta_1},并使残差

e_i=y_i-\widehat{y_i}(i=1,2,...,n)

        尽可能的小,其中\widehat{y_i}=\widehat{\beta_0}+\widehat{\beta_1}x_i(i=1,2,...,n)

        因此可总结为求解下面的优化问题:

\min _ { \beta _ { 0 } , \beta _ { 1 } } \sum _ { i = 1 } ^ { n } ( y _ { i } - \beta _ { 0 } - \beta _ { 1 } x _ { i } ) ^ { 2 }

        具体的解法是通过正规方程组来求解:

\left\{\begin{matrix} \frac { \partial Q } { \partial \beta _ { 0 } } = - 2 \sum _ { i = 1 } ^ { n } ( y _ { i } - \beta _ { 0 } - \beta _ { 1 } x _ { i } ) = 0\\ \frac { \partial Q } { \partial \beta _ { 1 } } = - 2 \sum _ { i = 1 } ^ { n } x_i( y _ { i } - \beta _ { 0 } - \beta _ { 1 } x _ { i } ) = 0 \end{matrix}\right.

        解得

\left\{\begin{matrix} \widehat { \beta _ { 1 } } = \frac { \sum _ { i = 1 } ^ { n } ( x _ { i } - \overline { x } ) ( y _ { i } - \overline { y } ) } { \sum _ { i = 1 } ^ { x } ( x _ { i } - \overline { x } ) ^ { 2 } }\\ \widehat{\beta_0}=\overline{y}-\widehat{\beta_1}\overline{x} \end{matrix}\right.

        为了简记运算结果,规定如下符号的表示含义:

l _ { x y } = \sum _ { i = 1 } ^ { n } ( x _ { i } - \overline { x } ) ( y _ { i } - \overline { y } ) = \sum _ { i = 1 } ^ { n } ( x _ { i } - \overline { x } ) y _ { i }

=\sum _ { i = 1 } ^ { n } x _ { i } ( y _ { i } - \overline { y } ) = \sum _ { i = 1 } ^ { n } x _ { i }y_i - n\overline { x } \cdot \overline { y }

l _ { x x } = \sum _ { i = 1 } ^ { n } ( x _ { i } - \overline { x } ) ^2 = \sum _ { i = 1 } ^ { n } x_i^2-n\overline{x}^2

l _ { yy } = \sum _ { i = 1 } ^ { n } ( y _ { i } - \overline { y } ) ^2 = \sum _ { i = 1 } ^ { n } y_i^2-n\overline{y}^2

        从而\widehat{\beta_0}\widehat{\beta_1}可简记为

\left\{\begin{matrix} \widehat{\beta_1}=\frac{l_xy}{l_xx}\\ \widehat{\beta_0}=\overline{y}-\widehat{\beta_1}\overline{x} \end{matrix}\right.

        这样的得到的\widehat{\beta_0}\widehat{\beta_1}称为\beta_0\beta_1最小二乘估计,记作LSE。

        \widehat{y}=\widehat{\beta_0}+\widehat{\beta_1}x

        为y关于x经验回归函数,称一元线性回归方程,其图形称为回归直线,且是\eta=E(y|x)的最小二乘估计量。给定x=x_0后,称\widehat{y}=\widehat{\beta_0}+\widehat{\beta_1}x_0为回归值(也称拟合值、预测值)。

四、一元线性回归有关性质

性质一:残差和等于零,即\sum^n_{i=1}e_i=0

性质二:(\overline{x},\overline{y})在样本回归直线上。

性质三

  1. \widehat { \beta } _ { 0 } \sim N ( \beta _ { 0 } , ( \frac { 1 } { n } + \frac { \overline { x } ^ { 2 } } { l _ { x x } } ) \sigma ^ { 2 } )
  2. \widehat { \beta } _ { 1 } \sim N ( \beta _ { 1 } , \frac { \sigma ^ { 2 } } { l _ { x x } } )
  3. C o v ( \widehat { \beta } _ { 0 } , \widehat { \beta } _ { 1 } ) = - \frac { \overline { x } } { l _ { x x } } \sigma ^ { 2 }
  4. \widehat { y } = \widehat { \beta } _ { 0 } + \widehat { \beta } _ { 1 } x \sim N ( \beta _ { 0 } + \beta _ { 1 } x , ( \frac { 1 } { n } + \frac { ( x - \overline { x } ) ^ { 2 } } { l _ { x x } } ) \sigma ^ { 2 } )

五、讨论回归直线是否有意义

        将残差e_i=y_i-\widehat{y_i}分成两部分的差:

        e_i=y_i-\widehat{y_i}=(y_i-\overline{y})-(\widehat{y_i}-\overline{y})

        前者称为随机误差,是由随机因素引起的误差(当然是越小越好);后者称为回归误差,有点类似于系统误差。

    

        这三项竟然也满足平方和关系,证明的话就是展开后发现交叉项全部为0:

        \sum _ { i = 1 } ^ { n } ( y _ { i } - \overline { y } ) ^ { 2 } = \sum _ { i = 1 } ^ { n } ( y _ { i } - \widehat { y _ { i } } ) ^ { 2 } + \sum _ { i = 1 } ^ { n } ( \widehat { y _ { i } } - \overline { y } ) ^ { 2 }

        左端为总离差平方和,记为SS_t=\sum_{i=1}^n(y_i-\overline{y})^2;

        右端第一项为残差平方和,记为SS_e=\sum_{i=1}^n(y_i-\widehat{y})^2;

        右端第二项为回归平方和,记为SS_r=\sum_{i=1}^n(\widehat{y}-\overline{y})^2

        关于这三个平方和具有如下性质

        (1)E[SS _ { e }] = ( n - 2 ) \sigma ^ { 2 },从而\widehat { \sigma } ^ { 2 } = \frac { S S_ { e } } { n - 2 }\sigma^2的无偏估计。

        (2)SS_eSS_r独立

        (3)\frac { S S_ { e }} { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n - 2 )

        (4)当\beta_1=0时,有\frac { S S_ { r }} { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( 1 )

        直观上理解:只有当回归平方和SS_r比残差平方和SS_e更大时,回归方程的预测才有更高的精度。为了定量地说明回归方程的精度,有以下对回归方程精度检验的方法。

六、一元线性回归方程系数的假设检验

1. F检验

        H_0:\beta_1=0H_1:\beta_1\not\neq0

        原假设H_0:\beta_1=0为真时,

E ( \frac { S S _ { r } } { n - 2 } ) = \sigma ^ { 2 } , E ( S S _ { r } ) = \sigma ^ { 2 }

        当原假设H_0:\beta_1=0不为真时,即H_1:\beta_1\not\neq0

        E ( \frac { S S _ { e } } { n - 2 } ) = \sigma ^ { 2 } , E ( S S _ { r } ) > \sigma ^ { 2 }

        原假设H_0:\beta_1=0为真时,选取如下统计量

F=\frac{\widehat{\beta_1}^2l_{xx}}{()l_{yy}-\widehat{\beta_1}l_{xy})/(n-2)} \frac { S S _ { r } / \sigma ^ { 2 } } { S S _ { e } / \sigma ^ { 2 } ( n - 2 ) } = \frac { S S _ { r } / 1 } { S S _ { e } / ( n - 2 ) } \sim F ( 1 , n - 2 )       

        在给定显著性水平\alpha的情况下,

P ( F \geq F _ { 1 - \alpha } ( 1 , n - 2 ) ) = \alpha

        拒绝域可以表示为

[F_{1-\alpha}(1,n-2),+\infty]

2. t检验

        由于\widehat { \beta } _ { 1 } \sim N ( \beta _ { 1 } , \frac { \sigma ^ { 2 } } { l _ { x x } } )\frac { S S_ { e }} { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n - 2 )

T = \frac { ( \widehat { \beta } _ { 1 } - \beta _ { 1 } ) \sqrt { ( n - 2 ) l _ { x x } } } { S _ { F } } - t ( n - 2 )

3. r检验

        由于SS_t=SS_e+SS_r,从而1=\frac{SSe}{SSt}+\frac{SSr}{SSt}。这相当于回归平方和残差平方在总体中占的比重。我们耳熟能详的相关系数计算公式如下:

R _ { 1 } ^ { 2 } = \frac { S S _ { r } } { S S _ { t } } = \frac { \sum _ { i = 1 } ^ { n } ( \widehat { y } _ { i } - \overline { y } ) ^ { 2 } } { \sum _ { i = 1 } ^ { n } ( y _ { i } - \overline { y } ) ^ { 2 } }

        通过比较R_1与1是否接近从而判断回归方程的精度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值