【模型开发】逐步回归

最新推荐文章于 2024-04-05 10:32:38 发布

CS正阳

最新推荐文章于 2024-04-05 10:32:38 发布

阅读量4.7k

点赞数 5

分类专栏：项目实战：模型开发文章标签：逐步回归

本文链接：https://blog.csdn.net/sunyaowu315/article/details/96744044

版权

逐步回归是一种通过逐步引入和剔除变量来构建最优回归模型的方法，旨在提高预测精度。它分为前向、后向和双向三种策略。前向法从无变量开始，逐步引入最显著的变量；后向法从所有变量开始，剔除不显著的变量；双向法结合两者，既引入也剔除。在实施过程中，每次操作都基于显著性检验，以避免过拟合问题。案例中提到了使用R语言进行评分违约预测模型的构建。

摘要由CSDN通过智能技术生成

1.定义

当变量中含有对被解释变量影响不大的解释变量时，可能因为误差平方和的自由度减小而使方差的估计增大，从而影响回归预测的精度，适当的选择一个变量建立一个最优的回归方程十分重要。

逐步回归（Stepwise Regression）的基本思想是将变量逐个引入模型，每引入一个解释变量后都要进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。

依据上述思想，可利用逐步回归筛选并剔除引起多重共线性的变量，其具体步骤如下：先用被解释变量对每一个所考虑的解释变量做简单回归，然后以对被解释变量贡献最大的解释变量所对应的回归方程为基础，再逐步引入其余解释变量。经过逐步回归，使得最后保留在模型中的解释变量既是重要的，又没有严重多重共线性。

2.分类

在逐步回归中，提取哪些变量主要基于的假设是：在线性条件下，哪些变量组合能够解释更多的因变量变异，则将其保留。逐步回归法选择变量的过程包含两个基本步骤：一是从回归模型中剔出经检验不显著的变量，二是引入新变量到回归模型中，常用的逐步型选元法有前向法、后向法、双向法。

Forward selection（前向逐步回归）:

向前法的思想是变量由少到多，属于贪心算法，每次增加一个，直至没有可引入的变量为止。具体步骤如下。

步骤1：

对 p 个回归自变量 $x_{1},x_{2},...,x_{p},$ 分别同因变量 $Y$ 建立一元回归模型

$\beta _{0}+\beta _{i}X_{i}+\epsilon ,i = 1,...p$

计算变量 $X_{i}$ ，相应的回归系数的 F 检验统计量的值，记为 $F_{1}^{(1)},...,F_{p}^{(1)}$ ,取其中的最大值 $F_{i_{1}}^{(1)}$ ，即

$F_{i_{1}}^{(1)} = max\left \{ \right.F_{1}^{(1)},...,F_{p}^{(1)}\left. \right \}$