2-4回归模型的诊断和优化 - 自变量选择

最新推荐文章于 2023-10-25 21:07:53 发布

Love_Life_AI

最新推荐文章于 2023-10-25 21:07:53 发布

阅读量5k

点赞数

分类专栏：学习笔记文章标签：机器学习算法

学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.自变量选择的影响

如果一个因变量共受到个因素的影响，建模时选取了所有的因素，则为全模型；若只选了其中p个因素建模，则成为选模型。

$y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+...+\beta _{m}x_{m}+\varepsilon$ (1)全模型

其参数估值为：

$\hat{\beta }_{m}=(X_{m}^{T}X_{m})^{-1}X_{m}^{T}y,\hat{\sigma }_{m}^{2}=1/(n-m-1)*SSE_{m}$

$y=\beta _{0p}+\beta _{1p}x_{1p}+\beta _{2p}x_{2p}+...+\beta _{pp}x_{pp}+\varepsilon_{p}$ (2)选模型

其参数估值为：

$\hat{\beta }_{p}=(X_{p}^{T}X_{p})^{-1}X_{p}^{T}y,\hat{\sigma }_{p}^{2}=1/(n-p-1)*SSE_{p}$

自变量选择的影响包括：

当为选入的因素的参数不全为零时，选模型的回归系统为有偏估计
选模型的预测结果时有偏预测
选模型的的参数估计有较小的方差
选模型的预测残差有较小的方差
选模型预测的均方误差比全模型小

2.自变量选择的准则

需要评价回归模型的最优准则，来判断哪个选模型性能最好。

残差平方和 $SSE$ 越小，决定系统 $R^{2}$ 越大越好：并非如此，增加自变量的个数会达到上述效果，但是考虑到多种共线性，变量测量误差累计，参数数目增加等因素，未必会好。
自由度调整复决定系统达到最大：自变量增多，复决定系数增大，但是残差自由度减小（残差自由度等于样本个数减掉变量个数）。自由度减小意味着可靠性低，即区间预测的增幅变大，无实际应用意义。采用调整复决定系数：

$adjR^{2}=1-(n-1)/(n-p-1)*(1-R^{2})$

针对 $（1-R_{2}）$ $(1-R^{2})$ ：自变量个数增加，不考虑系数：该项变小，整体值变大

针对 $(n-1)/(n-p-1)$ ：自变量个数增加，只考虑系数：该项变大，整体值变小

综合考虑，增加自变量时，只有对回归的贡献达到一定程度，才会选入

回归误差项方差的无偏估计： $\hat{\sigma }^{2}=1/(n-p-1)*SSE$ $adjR^{2}=1-(n-1)/SST*\hat{\sigma }^{2}$

自变量的个数从0开始增加，此时 $SSE$ 变小， $1/(n-p-1)$ 开始增加， $SSE$ 的减小速度更快，整体上 $\hat{\sigma }^{2}$ 开始逐渐减小；自变量增加到一定程度（比如重要变量都已加入）， $SSE$ 减少变慢且趋于稳定，此时 $\hat{\sigma }^{2}$ 开始逐渐增大。

赤池信息量达到最小：基于最大似然函数估计原理的模型选择准则

$AIC=-2lnL(\hat{\theta }_{L},x)+2p = > AIC=nln(SSE)+2p$

其中 $lnL(\hat{\theta }_{L},x)$ 为模型似然函数，维数（未知参数）为 $p$ ， $n$ 为样本数。

在回归建模过程中，对每一个模型计算 $AIC$ ，其中值最小的模型，就是最优回归模型。

统计量 $C_{p}$ 达到最小：

$C_{p}=SSE_{p}/\hat{\sigma }^{2} - n+2p=(n-m-1)*SSE_{p}/SSE_{m} -n+2p$

3.自变量的选择方法

3.1前进法

思路：变量由少到多，每次增加一个，直至没有可引入的变量

具体做法：

对所有个自变量，分别对因变量 $y$ 进行建模，建立个一元线性回归方程
对这个个一元线性回归方程的个回归系数进行检验，计算统计量值，找到最大的一个 $F_{j}^{1}$
将 $F_{j}^{1}$ 和预先设定的检验水平 $\alpha$ 对应的值比较，若 $F_{j}^{1}\geq F_{\alpha }(1,n-2)$ ，将自变量 $x_{j}$ 引入回归方程
对 $x_{j}$ 与剩余的个自变量进行组合 $(x_{j},x_{1}),(x_{j},x_{2}),...,(x_{j},x_{m})$ ，分别对因变量 $y$ 进行建模，建立个二元线性回归方程，对这个方程中非 $x_{j}$ 回归系数进行检验，选出最大的值 $F_{k}^{2}$ ，和 $\alpha$ 对应的临界值比较，若 $F_{k}^{2}\geq F_{\alpha }(1,n-3)$ ，将 $x_{k}$ 引入回归方程
重复上述步骤，直到没有符合引入条件的变量为止，得到最终的回归方程

3.2后退法

思路：变量由多到少，每次减少一个，直至没有可减少的变量

具体做法：

对所有个自变量，分别对因变量 $y$ 进行建模，建立个一元线性回归方程
对这个个一元线性回归方程的个回归系数进行检验，计算统计量值，找到最小的一个 $F_{j}^{1}$
将 $F_{j}^{1}$ 和预先设定的检验水平 $\alpha$ 对应的值比较，若 $F_{j}^{1}\leq F_{\alpha }(1,n-m-1)$ ，将自变量 $x_{j}$ 剔除回归方程
对 $x_{j}$ 与剩余的个自变量对因变量 $y$ 进行建模，建立个二元线性回归方程，对新的方程中个回归系数进行检验，选出最小的值 $F_{k}^{2}$ ，和 $\alpha$ 对应的临界值比较，若 $F_{k}^{2}\geq F_{\alpha }(1,n-m)$ ，将 $x_{k}$ 剔除回归方程
重复上述步骤，直到没有符合剔除条件的变量为止，得到最终的回归方程

前进法和后退法两者存在的一些问题：

前进法

不能反应引进新的自变量后的变化情况，环境不同（当存在的自变量），自变量的显著性也不同，而前进法的核心只是考虑了某个环境下的自变量的显著性，没有考虑不同环境下的显著性。
终身制：一旦入选，不会剔除，同样对环境变化缺少考量

后退法

计算量：自变量个数由多到少，开始的计算量会较大，并且可能做了很多无用功（一些自变量最终会被剔除，而最初的大量计算会价值有限）
未考虑环境变化带来的影响，与前进法相似，缺少对变化的考量
一棒子打死：被剔除的变量，后续不会再次引入，即使在某些条件下，被剔除的变量的显著性满足引入要求，即使优于当前方程中的某些变量

3.3逐步回归法

逐步回归法进行自变量的选择：

思路：有进有出，每当当前回归方程中的变量发生变化，都要对方程中的所有变量进行 $F$ 检验。

具体做法：

Love_Life_AI

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
2-4回归模型的诊断和优化 - 自变量选择

1.自变量选择的影响如果一个因变量共受到个因素的影响，建模时选取了所有的因素，则为全模型；若只选了其中p个因素建模，则成为选模型。 (1)全模型其参数估值为： (2)选模型其参数估值为：自变量选择的影响包括：当为选入的因素的参数不全为零时，选模型的回归系统为有偏估计选模型的预测结果时有偏预测选模型的的参数估计有较小的方差选模型的预测残差有较小...
复制链接

扫一扫