项目场景:
使用R进行生存分析,建立回归模型,预测患者的生存时间。
问题描述
Cox比例风险模型,是关于风险的模型,自变量是时间t和影响因素X,因变量是风险(危险率)函数。它的特点是,仅仅研究危险因素对生存的影响,而不关心时间对生存的影响。而我要找的,是一种对时间T的回归模型。
调研发现,基于生存时间的威布尔分布的参数AFT(Accelerated Failure Time)生存回归模型,对时间建模。它常使用在工业领域,如研究零件寿命受温度的影响,因此把生存时间称为失效时间(Failure Time)。
然后又发现survreg方法可以自定义数据分布为威布尔分布,并预测生存时间。所以建立survreg函数并预测时间的代码:
# 构建weibull生存模型 fit <- survreg(Surv(OS_MONTHS, OS_STATUS) ~ AGE_AT_EVIDENCE_OF_METS + SEX + TUMOR_PURITY+SAMPLE_COVERAGE,data = train, dist = 'weibull') # 模型预测 predict(fit, newdata = test, type = "response")
原因分析:
survreg方法不允许时间 = 0,因为在时间 = 0 发生事件,将导致未定义的估计量。(这我也说不清啥意思....)
解决方案:
将生存时间为0的数据都删掉,就不会报错了~