第十六章:回归分析:建立模型
1、一般线性模型:,式中每一个自变量zj(j=1,2…,p)都是x1,x2,……xk的函数。
被称为具有一个预测变量的简单一阶模型;被称为具有一个预测变量的二阶模型。
注:“一般线性模型”仅指的是β0、β1…,βp全是一次幂,并不意味着y和这些xi之间存在线性关系。
当两个变量之间存在交互作用时,我们不可能独立于其他变量之外,单独地考察一个变量对响应变量y的影响。
涉及变量之间的变换:①、比例变换:如非常数方差存在时用“取对数”来修正;②、倒数变换:用1/y作应变量来代替y。
③、指数模型的变换:形如的指数模型可变换成。
指数模型属于内线型的非线性模型(参数(β0、β1、…、βp)的幂次超过一次的模型)。
2、如何确定应该增加或者删减一个变量:F检验或者t检验。
原多元回归模型:,现增加p-q个自变量,
变成:
为了检验增加的自变量是否在统计上是显著的,提出原假设和备择假设。
给出F统计量:
将计算得到的F统计量的值与【分子自由度:p-q,分母自由度:n-p-1的】F分布表的上侧分位数Fα比较。
若:F>Fα,则拒绝H0,结论:增加的这组自变量在统计上是显著的。
3、
4、变量选择方法:①、逐步回归②、前向选择③、后向消元④、最佳子集回归。
前3种方法通过“反复迭代”,每一步只增加or删除一个自变量(选择自变量的准则就是“F统计量”),不断对新的回归模型进行评价;这种迭代过程会一直持续下去直到找不到一个更好的模型为止。
例如:考虑增加x2到包含x1的模型中或从包含x1和x2的模型中删除x2,为了检验增加/删除x2在统计上是否显著,假设如下:
,相应的F统计量应为:
可以利用这个统计量来确定x2的存在是否会引起误差平方和有一个显著的减少。
对应这个F统计量的p-值也可以用来拒绝:如果p-值≤α,则拒绝H0。
第4种方法(最佳子集回归)不是单变量一次性方法,是要对包含不同的自变量子集的回归模型进行评价。
①、逐步回归:逐步回归法可以认为是向前引入法与向后剔除法的综合。逐步回归法克服了向前引入法与向后剔除法的缺点,吸收两种方法的优点。逐步回归法是以向前引入为主,变量可进可出的变量选取方法。它的基本思想是,当被选入的变量在新变量引入后变得不重要时,可以将其剔除,而被剔除的变量当它在新变量引入后变得重要时,又可以重新选入方程。
②、前向选择:从模型中没有自变量开始,一次增加一个变量,一旦一个自变量进入模型中,将不允许删除。
③、后向消元:从包含所有自变量的模型开始。一次删除一个,一旦一个自变量从模型中删除,将不允许再次进入。
前向选择与后向消元是建模过程的两个极端,两种方法可能得到同样的估计回归方程,也可能得到不同的。
④、最佳子集回归:可以借助软件实现。
5、