模型构建 —— 模型评价 —— 模型验证 (整体思路)
**1:变量筛选
先单后多
即先进行单因素分析,将单因素有意义的变量再一起纳入多因素模型中。这样操作最为简单,并且在大多数情况下都是可行的。
但有时,比如变量数目过多、变量间存在共线性或者缺失值较多而不愿舍弃掉含有缺失值的样本,先单后多就存在诸多局限性。
如何克服这些问题呢?
我们可以使用一些具有自变量筛选功能的方法。
比如对于共线性问题,可以借助岭回归、Lasso、弹性网络模型来解决。而对于存在缺失值的情况,可以使用随机森林模型。
**2: 变量筛选方法
这里呢先将具有自变量筛选功能的常见方法,
- 逐步回归 (涉及向后法、向前法、向前向后法)
- 正则技术 (涉及岭回归、lasso、弹性网络模型)
- 随机森林模型 (树模型的扩展)
- 主成分分析(这里是提取多个自变量的主成分,将主成分得分作为最终的自变量)
**3:模型评价
在模型评价中,可以从不同角度出发,利用多种指标评价模型的拟合情况。为什么要评价模型呢?
因为在模型构建过程中,所拟合的模型不一定是最优模型或者说不是一个好模型,也就是可能存在欠拟合情况
常见的评价指标主要有以下几种。
-D拟合优度检验(涉及卡方值及P值)
-ROC(涉及AUC. sen.spe. accuracy等指标)3calibration(涉及c-index的计算)
或者直接计算终极指标MSE的计算
**4:过拟合+模型验证