前言
感谢吕教授的代码和指导!
还是之前那篇文章:
1. SEER 数据库数据提取。
解剖学位置:Site and Morphology: Primary site-labeled = c09.0,c09.1,c09.8,c09.9;
形态学编码:8070/3, 8071/3, 8072/3, 8083/3;
Year of diagnosis: 与AJCC(第六版)的配套:2004-2016;
总共拿到2万多条数据。
2.数据清洗
都在R里面完成,这样不用每次都整excel,直接在R里面调整即可。出现新的字段,一定要全面了解新字段的分类信息。
最终留下了1多万条数据,怎么样都去不掉了。将字段转化成factor。
3.画基线表
三七分分成训练组及验证组,然后画基线表。
4.多因素及多因素Cox回归
5.nomogram
c-index: 0.734,模型没问题。
感觉AJCC占比不高啊。
6.ROC
7.校准曲线
8.DCA曲线
5年,与AJCC做对比。
9.NRI值
5年。
10. IDI值
## 5年
"IDI" "p.value"
0.140618419400642 0
11.批量画OS生存曲线
分期越靠后,存活率越低。
肿瘤越大,存活率越低。
总结
里面有很多1,3,5年的数据,我都包装成了函数,省了很多篇幅,而且不易出错。统一设定好一套代码,跑完所有训练及和测试集,自动出数据。
至此,预测模型算是完整的走完了。还剩下一些细节,比如对SEER字段的理解,对终点事件的解读。还有就是涉及到具体课题的结果解读了。
至此,预测模型算是完整的走完了。还剩下一些细节,比如对SEER字段的理解,对终点事件的解读。还有就是涉及到具体课题的结果解读了。
文章首发于微信公众号:颗粒神经元。欢迎关注。