题记:本章为预测模型系列方法学文章第3篇,主要介绍Logistic回归的预测模型构建方法与Nomogram的绘制。
1. 背景知识
本章我们将用一个具体案例来介绍用R语言构建Logistic回归预测模型并绘制Nomogram的完整过程。有关预测模型的构建流程我们将在下一章《预测模型系列04–基于R的生存资料预测模型构建与Nomogram绘制》中介绍;有关预测模型优劣的评价方法我们将在后续章节中介绍。我们可以把临床预测模型构建与验证的步骤总结为以下7个步骤:
(1)明确临床问题,确定科学假说
(2)根据既往文献,确定预测模型研究思路
(3)确定预测模型的预测变量
(4)确定预测模型的结局变量
(5)构建预测模型,计算模型预测值
(6)模型区分能力评估
(7)模型的准确性评估
其中步骤2有关预测模型的研究思路,大家可以参见本文图1.
图1. 三种预测模型的研究思路
2. 案例分析
Hosmer和 Lemeshow于1989年研究了低出生体重婴儿的影响因素。结果变量为:是否娩出低出生体重儿(变量名为“low”,二分类变量,1=低出生体重,即婴儿出生体重<2500g;0=非低出生体重),考虑的影响因素(自变量)有:产妇妊娠前体重(lwt,磅);产妇年龄(age,岁);产妇在妊娠期间是否吸烟(smoke,0=未吸、1=吸烟);本次妊娠前早产次数(ptl,次);是否患有高血压(ht,0=未患、1=患病);子宫对按摩、催产素等刺激引起收缩的应激性(ui,0=无、1=有);妊娠前三个月社区医生随访次数(ftv,次);种族(race,1=白人、2=黑人、3=其他民族)。本案例因变量是二分类变量(是否低出生体重儿),研究目的是探讨低出生体重儿的独立影响因素,符合二元Logistic回归的应用条件。因为本例中,我们只有这一个数据集,可以用这个数据集作为训练集建模,然后在本数据集利用Bootstrap重抽样的方法进行模型验证。下面我们就基于R语言演示预测低出生体重儿的预测模型构建与Nomogram的绘制,我们把数据sav的数据格式整理好,命名为“lweight.sav”,保存在R语言当前工作路径下。具体分析步骤如下:
(1)首先筛选影响低出生体重儿的独立影响因素,构建Logistic回归模型;
(2)绘制Nomogram;
(3)计算模型的区分度 C-Statistics;
(4)重抽样的方法进行模型验证,并绘制Ca