在前两篇文章中,我们探讨了回归模型的相关内容。当自变量数量较少时,可以直接构建多元回归模型。然而,当自变量数量众多时,使用所有变量构建模型可能会导致模型变得臃肿。在这种情况下,进行模型简化显得尤为重要,这就是我们今天要讨论的主题——逐步回归。
逐步回归是一种在回归分析中逐步选择变量的方法,用于在多个潜在预测变量中筛选出对目标变量影响较大的特征。它通过添加或删除变量逐步优化模型,旨在找到最优的变量组合,使模型既具有解释力又不至于过于复杂,逐步回归特别适用于多变量回归分析。目前逐步回归主要有两种形式:逐步删除变量以及逐步增加变量,我喜欢把它们称为步进法和步减法。
什么是步进法?
步进法:从一个无变量的空模型开始,将每一个独立变量分别引入模型中,计算引入后模型的表现,选择对模型改进最大的变量。每次增加一个变量后,继续测试其他变量,依次引入对模型解释力最有帮助的变量,直到没有新的变量能显著提升模型的拟合度为止。
对于逐步回归模型,我们主要看三个指标:(1)AIC,是一种用于比较模型优劣的准则,值越小的模型解释力越好;(2)p值,小于0.05即为显著;(3)R方,数值越高代表模型拟合越好。
接下来我们看下步进法和步减法的实例。
步进法的实例
图1的ABCDE是逐步加入变量的过程,理解的思路就是,逐个变量去尝试,看加上哪一个变量的AIC值最低,比如在图1A中,加入变量SD后的AIC最低,因此首先选择SD;随后加上TP,直至图1E中,加上任何变量后的AIC都不及不加变量(<none>)的AIC高之后,整个变量基本上就筛选出来了。最后图1F是用筛选过的变量所构建的回归模型。模型结果的解读完全按照我之前发的线性回归篇的方式,这里就不再赘述。
本文先介绍步进法,我会在下一篇文中中重点介绍步减法,这是一种从完整模型出发,逐步剔除不显著自变量的优化策略。步减法与步进法虽然都是逐步筛选自变量的方法,但它们执行逻辑完全不同。在下一篇文章中我会对两种方法的差异进行探讨,下次见!
TomatoSCI科研数据分析平台,欢迎大家来访!数据分析无需登录,专业在线客服答疑,还可在线传输文件,五折优惠码“tomatosci”开放使用中。