TomatoSCI分析日记—逐步回归1

        在前两篇文章中,我们探讨了回归模型的相关内容。当自变量数量较少时,可以直接构建多元回归模型。然而,当自变量数量众多时,使用所有变量构建模型可能会导致模型变得臃肿。在这种情况下,进行模型简化显得尤为重要,这就是我们今天要讨论的主题——逐步回归。

        逐步回归是一种在回归分析中逐步选择变量的方法,用于在多个潜在预测变量中筛选出对目标变量影响较大的特征。它通过添加或删除变量逐步优化模型,旨在找到最优的变量组合,使模型既具有解释力又不至于过于复杂,逐步回归特别适用于多变量回归分析。目前逐步回归主要有两种形式:逐步删除变量以及逐步增加变量,我喜欢把它们称为步进法和步减法。


        什么是步进法?

        步进法:从一个无变量的空模型开始,将每一个独立变量分别引入模型中,计算引入后模型的表现,选择对模型改进最大的变量。每次增加一个变量后,继续测试其他变量,依次引入对模型解释力最有帮助的变量,直到没有新的变量能显著提升模型的拟合度为止。

对于逐步回归模型,我们主要看三个指标:(1)AIC,是一种用于比较模型优劣的准则,值越小的模型解释力越好;(2)p值,小于0.05即为显著;(3)R方,数值越高代表模型拟合越好。

接下来我们看下步进法和步减法的实例。


        步进法的实例

        图1的ABCDE是逐步加入变量的过程,理解的思路就是,逐个变量去尝试,看加上哪一个变量的AIC值最低,比如在图1A中,加入变量SD后的AIC最低,因此首先选择SD;随后加上TP,直至图1E中,加上任何变量后的AIC都不及不加变量(<none>)的AIC高之后,整个变量基本上就筛选出来了。最后图1F是用筛选过的变量所构建的回归模型。模型结果的解读完全按照我之前发的线性回归篇的方式,这里就不再赘述。


        本文先介绍步进法,我会在下一篇文中中重点介绍步减法,这是一种从完整模型出发,逐步剔除不显著自变量的优化策略。步减法与步进法虽然都是逐步筛选自变量的方法,但它们执行逻辑完全不同。在下一篇文章中我会对两种方法的差异进行探讨,下次见!

        TomatoSCI科研数据分析平台,欢迎大家来访!数据分析无需登录,专业在线客服答疑,还可在线传输文件,五折优惠码“tomatosci”开放使用中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值