上一期我们使用了nomogram进行了logistic回归的可视化,但是俗话说"All models are wrong,but some are useful."所以建立完模型并没有结束,还需要对模型进行验证,验证模型是否真的适合用来解决问题。
- Internal validation
- External validation
- Discussion
Internal validation
Discrimination
Discrimination,区分度,是指模型的预测结果能否找到一个断点将结果分类,且分类结果与实际情况相符的能力。通常使用C-index(Concordance index)来衡量模型的区分度,取值范围为0.5-1.0,值越高表明预测分类结果与实际情况越相符。
对于logistic回归而言,C-index等同于ROC曲线下面积,即AUC(Area Under the Curve)。
进行验证:
对于C-index,使用rms包中的lrm函数拟合模型后可直接得到C-index
> library(rms)
> train <- read.csv("train.csv")
> survival <- train$Survived
> pclass <- train$Pclass
&