1.自变量选择的影响
如果一个因变量共受到个因素的影响,建模时选取了所有的因素,则为全模型;若只选了其中p个因素建模,则成为选模型。
(1)全模型
其参数估值为:
(2)选模型
其参数估值为:
自变量选择的影响包括:
- 当为选入的因素的参数不全为零时,选模型的回归系统为有偏估计
- 选模型的预测结果时有偏预测
- 选模型的的参数估计有较小的方差
- 选模型的预测残差有较小的方差
- 选模型预测的均方误差比全模型小
2.自变量选择的准则
需要评价回归模型的最优准则,来判断哪个选模型性能最好。
- 残差平方和
越小,决定系统
越大越好:并非如此,增加自变量的个数会达到上述效果,但是考虑到多种共线性,变量测量误差累计,参数数目增加等因素,未必会好。
- 自由度调整复决定系统达到最大:自变量增多,复决定系数增大,但是残差自由度减小(残差自由度等于样本个数减掉变量个数)。自由度减小意味着可靠性低,即区间预测的增幅变大,无实际应用意义。采用调整复决定系数:
针对:自变量个数增加,不考虑系数:该项变小,整体值变大
针对:自变量个数增加,只考虑系数:该项变大,整体值变小
综合考虑,增加自变量时,只有对回归的贡献达到一定程度,才会选入
回归误差项方差的无偏估计:
自变量的个数从0开始增加,此时变小,
开始增加,
的减小速度更快,整体上
开始逐渐减小;自变量增加到一定程度(比如重要变量都已加入),
减少变慢且趋于稳定,此时
开始逐渐增大。
- 赤池信息量达到最小:基于最大似然函数估计原理的模型选择准则
其中为模型似然函数,维数(未知参数)为
,
为样本数。
在回归建模过程中,对每一个模型计算,其中值最小的模型,就是最优回归模型。
- 统计量
达到最小:
3.自变量的选择方法
3.1前进法
思路:变量由少到多,每次增加一个,直至没有可引入的变量
具体做法:
- 对所有
个自变量,分别对因变量
进行建模,建立
个一元线性回归方程
- 对这个
个一元线性回归方程的
个回归系数进行
检验,计算
统计量值,找到最大的一个
- 将
和预先设定的检验水平
对应的
值比较,若
,将自变量
引入回归方程
- 对
与剩余的
个自变量进行组合
,分别对因变量
进行建模,建立
个二元线性回归方程,对这
个方程中非
回归系数进行
检验,选出最大的
值
,和
对应的临界值比较,若
,将
引入回归方程
- 重复上述步骤,直到没有符合引入条件的变量为止,得到最终的回归方程
3.2后退法
思路:变量由多到少,每次减少一个,直至没有可减少的变量
具体做法:
- 对所有
个自变量,分别对因变量
进行建模,建立
个一元线性回归方程
- 对这个
个一元线性回归方程的
个回归系数进行
检验,计算
统计量值,找到最小的一个
- 将
和预先设定的检验水平
对应的
值比较,若
,将自变量
剔除回归方程
- 对
与剩余的
个自变量对因变量
进行建模,建立
个二元线性回归方程,对新的方程中
个回归系数进行
检验,选出最小的
值
,和
对应的临界值比较,若
,将
剔除回归方程
- 重复上述步骤,直到没有符合剔除条件的变量为止,得到最终的回归方程
前进法和后退法两者存在的一些问题:
前进法
- 不能反应引进新的自变量后的变化情况,环境不同(当存在的自变量),自变量的显著性也不同,而前进法的核心只是考虑了某个环境下的自变量的显著性,没有考虑不同环境下的显著性。
- 终身制:一旦入选,不会剔除,同样对环境变化缺少考量
后退法
- 计算量:自变量个数由多到少,开始的计算量会较大,并且可能做了很多无用功(一些自变量最终会被剔除,而最初的大量计算会价值有限)
- 未考虑环境变化带来的影响,与前进法相似,缺少对变化的考量
- 一棒子打死:被剔除的变量,后续不会再次引入,即使在某些条件下,被剔除的变量的显著性满足引入要求,即使优于当前方程中的某些变量
3.3逐步回归法
逐步回归法进行自变量的选择:
思路:有进有出,每当当前回归方程中的变量发生变化,都要对方程中的所有变量进行检验。
具体做法: