TomatoSCI分析日记—逐步回归1-CSDN博客

本文链接：https://blog.csdn.net/qq_44684643/article/details/147705228

在前两篇文章中，我们探讨了回归模型的相关内容。当自变量数量较少时，可以直接构建多元回归模型。然而，当自变量数量众多时，使用所有变量构建模型可能会导致模型变得臃肿。在这种情况下，进行模型简化显得尤为重要，这就是我们今天要讨论的主题——逐步回归。

逐步回归是一种在回归分析中逐步选择变量的方法，用于在多个潜在预测变量中筛选出对目标变量影响较大的特征。它通过添加或删除变量逐步优化模型，旨在找到最优的变量组合，使模型既具有解释力又不至于过于复杂，逐步回归特别适用于多变量回归分析。目前逐步回归主要有两种形式：逐步删除变量以及逐步增加变量，我喜欢把它们称为步进法和步减法。

什么是步进法？

步进法：从一个无变量的空模型开始，将每一个独立变量分别引入模型中，计算引入后模型的表现，选择对模型改进最大的变量。每次增加一个变量后，继续测试其他变量，依次引入对模型解释力最有帮助的变量，直到没有新的变量能显著提升模型的拟合度为止。

对于逐步回归模型，我们主要看三个指标：（1）AIC，是一种用于比较模型优劣的准则，值越小的模型解释力越好；（2）p值，小于0.05即为显著；（3）R方，数值越高代表模型拟合越好。

接下来我们看下步进法和步减法的实例。

步进法的实例

图1的ABCDE是逐步加入变量的过程，理解的思路就是，逐个变量去尝试，看加上哪一个变量的AIC值最低，比如在图1A中，加入变量SD后的AIC最低，因此首先选择SD；随后加上TP，直至图1E中，加上任何变量后的AIC都不及不加变量（<none>）的AIC高之后，整个变量基本上就筛选出来了。最后图1F是用筛选过的变量所构建的回归模型。模型结果的解读完全按照我之前发的线性回归篇的方式，这里就不再赘述。