直线回归和相关------(二)直线回归的假设测验和区间估计以及matlab实现

一、直线回归的假设测验

(1)回归关系的假设测验

若X和Y变数总体并不存在直线回归关系,则随机抽取一个样本也可用上节的方法算得一个直线方程\hat{y}=a+bx

显然,这样的回归方程是靠不住的。所以对于样本的回归方程,

必须测定其来自无直线回归关系总体的概率大小。当这种概率小于0.05或0.01时,才能冒险确认其所存在的总体关系存在着直线回归关系。这就是回归关系的假设测验,可有t测验或F测验给出。

t测验:若总体不存在直线回归关系,则总体回归系数\beta=0;总体存在直线回归关系,则\beta\neq0。

          直线回归的假设测验:H_{0}:\beta =0   对   H_{A}:\beta \neq 0

          回归系数的标准误为s_{b}=\sqrt{\frac{s_{y/x}^{2}}{\sum (x-\bar{x})^{2}}}=\frac{s_{y/x}}{\sqrt{SS_{x}}} 

                                            t=\frac{b-\beta }{s_{b}}   

          遵循 v=n-2 的t分布,由t值可知样本回归系数b来自总体\beta=0总体的概率大小。

          |t|>t_{\alpha },表明在\beta=0总体中因抽样误差而获得现有样本的概率小于\alpha。否定原假设,接受备择假设,即认为两变数之间有真实直线回归关系的,或者说是b是显著的。

F测验:当仅以\bar{y}表示y资料时(不考虑x的影响),y变数具有平方和SS_{y}=\sum (y-\bar{y})^{2}和自由度v=n-1.

           当以\hat{y}=a+bx表示y的资料时(考虑x的影响),则SS_{y}可以分解成两个部分:

           

在同一概率值下,一尾的F值正好是两尾t的平方即 F=t^{2}:

                  F=\frac{(SP)^{2}/SS_{x}}{s_{y/x}^{2}}=\frac{(SP/SS_{x})^{2}}{s_{y/x}^{2}/SS_{x}}=\frac{b^{2}}{s_{b}^{2}}=t^{2}

所以,对直线回归做假设测验,只需选择上述测验方法之一。

(2)两个回归系数比较时的假设测验

若有两个直线回归样本,分别具有样本回归系数b_{1},b_{2}

若接受H0,两者共同值为:b=\frac{SP_{1}+SP_{2}}{SS_{x_{1}}+SS_{x_{2}}} (b是两个回归系数的加权平均数,不等于(b1+b2)/2。

二、直线回归的区间估计

(1)直线回归的抽样误差

在直线回归总体N(\alpha +\beta X,\sigma _{\varepsilon }^{2})中抽取若干个样本时,由于\sigma _{\varepsilon }^{2},各样本的a,b值都有误差。因此,由\hat{y}=a+bx给出的点估计的精确性,决定于s_{y/x}^{2}(离回归均方)和a,b的误差大小。比较科学的方法是考虑到误差的大小和

坐标点的离散程度,给出一个区间估计,即给出对其总体的\alpha ,\beta\beta\mu _{Y/X}等的置信区间。

(2)回归截距的置信区间

样本回归截距a=\bar{y}-b\bar{x} \bar{y}和b的误差方差分别为:s_{\bar{y}}^{2}=s_{y/x}^{2}/n  ,   s_{b}^{2}=s_{y/x}^{2}/SS_{x}  

根据误差合成原理,a的标准误为:

s_{\alpha}和对\alpha ,\beta的置信区间一般在a有专业意义时应用。在表示结果时,写成:a\pm s_{a}

(3)回归系数的置信区间

  总体回归系数\beta的95%可靠度的置信区间为:[L1=b-t_{0.05}s_{b}  , L2=b+t_{0.05}s_{b}  ]

  在表示结果时,写成:b\pm s_{b}

(4)条件总体平均数 \mu _{Y/X} 的置信区间

根据回归模型的定义,每一个X上都有一个Y变数的条件总体,该条件总体的平均数为\mu _{Y/X},其样本估计值为\hat{y}

由于 \hat{y}=\bar{y}+b(x-\bar{x})  ,故\hat{y}的标准误为:

(5)条件总体预测值的置信区间

这是以一定的保证概率估计任一X上Y 单个预测值的存在范围。

线性数学组成为:y_{i}=\bar{y}+b(x-\bar{x})+e_{i},单个预测值的估计标准误为:

(6)置信区间和预测区间的图示

由于s_{\hat{y}} 和 s_{y} 的算式中包含 (x-\bar{x})^{2} 项,使 s_{\hat{y}} 和 s_{y} 的值随x的不同而不同。实践中经常需要由x来推断 \mu _{Y/X} 或预测Y时,最好将相应的置信区间和预测区间做成图,以便从图上直接读出所需的值。

在作图时,首先可取若干个等距的x值(x取值愈密,作图愈准确),算的与其相应的L1,L2,再算得各x上的L1,L2并标于图上,最后将各个L1,L2分别连接成曲线即可。

\bar{AB},\bar{CD}所夹区间为包括 \mu _{Y/X} 在内有95%可靠度的置信区间,\mu _{Y/X}的95%置信带。

\bar{EF},\bar{GH}所夹区间为 Y_{(P)} 95%预测带或预测区间。

\bar{AB},\bar{CD} 和 \bar{EF},\bar{GH} 都是以回归直线为轴而上下对称。

matlab 一元线性回归:

          mdl=fitlm(x,y) ;  

          plot(mdl);

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值