风暴统计案例复现 | logistic回归构建预测模型全流程（2）

风暴统计

已于 2024-06-18 15:44:45 修改

阅读量462

点赞数 3

文章标签：回归数据挖掘人工智能机器学习算法

于 2024-06-17 21:30:31 首次发布

本文链接：https://blog.csdn.net/fengbaotongji/article/details/139768250

版权

Logistic构建临床预测模型案例复现系列主要以一篇基于logistic回归构建预测模型的文章为案例，从构建预测模型——验证模型，包括了①随机数据拆分、②基线描述、③筛选预测因子、④绘制列线图、⑤绘制ROC曲线并计算AUC值、⑥HL检验、⑦绘制校准曲线、⑧绘制DCA曲线，基本涵盖了Logistic构建预测模型的全过程，复现过程将会分两篇文章开展，分别是模型构建、模型验证！

本文为Logistic构建预测模型案例复现的第二篇文章——logistic回归预测模型的评价，包括模型区分度检验-ROC曲线、模型校准度检验-校准曲线、模型拟合评价HL检验、模型的临床获益评价-DCA曲线！

案例文献是一篇基于SEER公共数据库的一项回顾性研究，旨在开发和验证列线图以预测脑转移的非小细胞肺癌患者早期死亡。

背景：在非小细胞肺癌（NSCLC）的整个病程中，很多患者会出现预后差、死亡率高的脑转移（BM）。然而，很少有模型能预测有脑转移的NSCLC患者的早期死亡（ED）。我们旨在开发列线图来预测NSCLC脑转移患者ED。

方法：从监测、流行病学和最终结果（SEER）数据库中选取了2010年至2015年间患有BM的NSCLC患者。纳入标准如下：（I）患者经病理诊断为NSCLC；（II）患者患有BM。患者按7:3的比例随机分为两组，分别为训练组和验证组。采用单因素和多因素Logistic回归方法来确定伴有BM的NSCLC患者发生ED的危险因素。建立了两个列线图，并通过校准曲线、ROC曲线和决策曲线分析（DCA）进行了验证。随访数据包括生存月数、死因和生命状态。初次诊断后3个月内的死亡定义为ED，终点为全因ED和癌症特异性ED。

结果：共纳入了4,920名患有BM的NSCLC患者，并随机分为两个队列（7:3），包括训练队列（n=3,444）和验证队列（n=1,476）。全因ED和癌症特异性ED的独立预后因素包括年龄、性别、种族、肿瘤大小、组织学、T分期、N分期、分级、手术、放疗、化疗、骨转移和肝转移。所有这些变量都用于建立列线图。在全因ED和癌症特异性ED的列线图中，训练数据集的ROC曲线下面积分别为0.813（95% CI：0.799-0.837）和0.808（95% CI：0.791-0.830），验证数据集的ROC曲线下面积分别为0.835（95% CI：0.805-0.862）和0.824（95% CI：0.790-0.849）。此外，校准曲线证明预测的ED与实际值一致。DCA临床应用前景良好。

结论：列线图可用来预测患者死亡的具体概率，有助于治疗决策和重点护理，以及医患沟通。‍

原文与实操数据获取方式："Zstats风暴统计"公众号回复关键词“案例复现”

本文对已构建模型进行评价得思路十分经典清晰，下面我们分步介绍：

1.1 ROC曲线

AUC值均大于0.8，说明模型的区分效果佳！

训练集（全死因结局）