2-4回归模型的诊断和优化 - 自变量选择

1.自变量选择的影响

如果一个因变量共受到m个因素的影响,建模时选取了所有的因素,则为全模型;若只选了其中p个因素建模,则成为选模型。

y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+...+\beta _{m}x_{m}+\varepsilon   (1)全模型

其参数估值为:

\hat{\beta }_{m}=(X_{m}^{T}X_{m})^{-1}X_{m}^{T}y,\hat{\sigma }_{m}^{2}=1/(n-m-1)*SSE_{m}

y=\beta _{0p}+\beta _{1p}x_{1p}+\beta _{2p}x_{2p}+...+\beta _{pp}x_{pp}+\varepsilon_{p}   (2)选模型

其参数估值为:

\hat{\beta }_{p}=(X_{p}^{T}X_{p})^{-1}X_{p}^{T}y,\hat{\sigma }_{p}^{2}=1/(n-p-1)*SSE_{p}

自变量选择的影响包括:

  • 当为选入的因素的参数不全为零时,选模型的回归系统为有偏估计
  • 选模型的预测结果时有偏预测
  • 选模型的的参数估计有较小的方差
  • 选模型的预测残差有较小的方差
  • 选模型预测的均方误差比全模型小

2.自变量选择的准则

需要评价回归模型的最优准则,来判断哪个选模型性能最好。

  • 残差平方和SSE越小,决定系统R^{2}越大越好:并非如此,增加自变量的个数会达到上述效果,但是考虑到多种共线性,变量测量误差累计,参数数目增加等因素,未必会好。
  • 自由度调整复决定系统达到最大:自变量增多,复决定系数增大,但是残差自由度减小(残差自由度等于样本个数减掉变量个数)。自由度减小意味着可靠性低,即区间预测的增幅变大,无实际应用意义。采用调整复决定系数:

adjR^{2}=1-(n-1)/(n-p-1)*(1-R^{2})

针对(1-R_{2})(1-R^{2}):自变量个数增加,不考虑系数:该项变小,整体值变大

针对(n-1)/(n-p-1):自变量个数增加,只考虑系数:该项变大,整体值变小

综合考虑,增加自变量时,只有对回归的贡献达到一定程度,才会选入

回归误差项方差的无偏估计:\hat{\sigma }^{2}=1/(n-p-1)*SSE           adjR^{2}=1-(n-1)/SST*\hat{\sigma }^{2}

自变量的个数从0开始增加,此时SSE变小,1/(n-p-1)开始增加,SSE的减小速度更快,整体上\hat{\sigma }^{2}开始逐渐减小;自变量增加到一定程度(比如重要变量都已加入),SSE减少变慢且趋于稳定,此时\hat{\sigma }^{2}开始逐渐增大。

  • 赤池信息量达到最小:基于最大似然函数估计原理的模型选择准则

AIC=-2lnL(\hat{\theta }_{L},x)+2p = > AIC=nln(SSE)+2p

其中lnL(\hat{\theta }_{L},x)为模型似然函数,维数(未知参数)为pn为样本数。

在回归建模过程中,对每一个模型计算AIC,其中值最小的模型,就是最优回归模型。

  • 统计量C_{p}达到最小:

C_{p}=SSE_{p}/\hat{\sigma }^{2} - n+2p=(n-m-1)*SSE_{p}/SSE_{m} -n+2p

3.自变量的选择方法

3.1前进法

思路:变量由少到多,每次增加一个,直至没有可引入的变量

具体做法:

  • 对所有m个自变量,分别对因变量y进行建模,建立m个一元线性回归方程
  • 对这个m个一元线性回归方程的m个回归系数进行F检验,计算F统计量值,找到最大的一个F_{j}^{1}
  • F_{j}^{1}和预先设定的检验水平\alpha对应的F值比较,若F_{j}^{1}\geq F_{\alpha }(1,n-2),将自变量x_{j}引入回归方程
  • x_{j}与剩余的m-1个自变量进行组合(x_{j},x_{1}),(x_{j},x_{2}),...,(x_{j},x_{m}),分别对因变量y进行建模,建立m-1个二元线性回归方程,对这m-1个方程中非x_{j}回归系数进行F检验,选出最大的FF_{k}^{2},和\alpha对应的临界值比较,若F_{k}^{2}\geq F_{\alpha }(1,n-3),将x_{k}引入回归方程
  • 重复上述步骤,直到没有符合引入条件的变量为止,得到最终的回归方程

3.2后退法

思路:变量由多到少,每次减少一个,直至没有可减少的变量

具体做法:

  • 对所有m个自变量,分别对因变量y进行建模,建立m个一元线性回归方程
  • 对这个m个一元线性回归方程的m个回归系数进行F检验,计算F统计量值,找到最小的一个F_{j}^{1}
  • F_{j}^{1}和预先设定的检验水平\alpha对应的F值比较,若F_{j}^{1}\leq F_{\alpha }(1,n-m-1),将自变量x_{j}剔除回归方程
  • x_{j}与剩余的m-1个自变量对因变量y进行建模,建立m-1个二元线性回归方程,对新的方程中m-1个回归系数进行F检验,选出最小的FF_{k}^{2},和\alpha对应的临界值比较,若F_{k}^{2}\geq F_{\alpha }(1,n-m),将x_{k}剔除回归方程
  • 重复上述步骤,直到没有符合剔除条件的变量为止,得到最终的回归方程

前进法和后退法两者存在的一些问题:

前进法

  • 不能反应引进新的自变量后的变化情况,环境不同(当存在的自变量),自变量的显著性也不同,而前进法的核心只是考虑了某个环境下的自变量的显著性,没有考虑不同环境下的显著性。
  • 终身制:一旦入选,不会剔除,同样对环境变化缺少考量

后退法

  • 计算量:自变量个数由多到少,开始的计算量会较大,并且可能做了很多无用功(一些自变量最终会被剔除,而最初的大量计算会价值有限)
  • 未考虑环境变化带来的影响,与前进法相似,缺少对变化的考量
  • 一棒子打死:被剔除的变量,后续不会再次引入,即使在某些条件下,被剔除的变量的显著性满足引入要求,即使优于当前方程中的某些变量

3.3逐步回归法

逐步回归法进行自变量的选择:

思路:有进有出,每当当前回归方程中的变量发生变化,都要对方程中的所有变量进行F检验。

具体做法:

 

 

 

 

 

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值