Logistic回归预测模型—— 整体概述(也适用于其他回归模型)

本文详细介绍了Logistic回归模型的构建过程,包括变量筛选方法如逐步回归、正则技术、随机森林和主成分分析。接着讨论了模型评价的重要性,列出了D拟合优度、ROC曲线和Calibration等指标。最后提到了过拟合问题和模型验证,如交叉验证和Bootstrap方法。整个流程可能需要反复迭代以得到最佳模型。
摘要由CSDN通过智能技术生成

模型构建 —— 模型评价 —— 模型验证 (整体思路)

**1:变量筛选
先单后多
即先进行单因素分析,将单因素有意义的变量再一起纳入多因素模型中。这样操作最为简单,并且在大多数情况下都是可行的。
但有时,比如变量数目过多、变量间存在共线性或者缺失值较多而不愿舍弃掉含有缺失值的样本,先单后多就存在诸多局限性。

如何克服这些问题呢?
我们可以使用一些具有自变量筛选功能的方法。
比如对于共线性问题,可以借助岭回归、Lasso、弹性网络模型来解决。而对于存在缺失值的情况,可以使用随机森林模型。

**2: 变量筛选方法
这里呢先将具有自变量筛选功能的常见方法,

  • 逐步回归 (涉及向后法、向前法、向前向后法)
  • 正则技术 (涉及岭回归、lasso、弹性网络模型)
  • 随机森林模型 (树模型的扩展)
  • 主成分分析(这里是提取多个自变量的主成分,将主成分得分作为最终的自变量)

**3:模型评价
在模型评价中,可以从不同角度出发,利用多种指标评价模型的拟合情况。为什么要评价模型呢?
因为在模型构建过程中,所拟合的模型不一定是最优模型或者说不是一个好模型,也就是可能存在欠拟合情况
常见的评价指标主要有以下几种。

-D拟合优度检验(涉及卡方值及P值)
-ROC(涉及AUC. sen.spe. accuracy等指标)3calibration(涉及c-index的计算)
或者直接计算终极指标MSE的计算

**4:过拟合+模型验证

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值