bootstrap自采样目前广泛应用与统计学中,其原理很简单就是通过自身原始数据抽取一定量的样本(也就是取子集),通过对抽取的样本进行统计学分析,然后继续重新抽取样本进行分析,不断的重复这一过程N(大于500次以上)次,然后得到N个统计结果,然后进行区间分析,得到最终结果。
在既往文章中,我们已经介绍了《R语言使用BOOT重抽样获取cox回归方程C-index(C指数)可信区间(2)》,很多粉丝发信问怎么做logistic回归内部验证AUC可信区间,我这些天也查了一下资料,发现主要分为两种方法一种是对数据进行重抽样,然后算出每个数据的AUC然后求出可信区间,这种方法是不能绘制ROC的可信区间图的,另一种是对结果数据进行抽样,可以绘制ROC可信区间图,如上图。我打算这两种方法都介绍一下,给大家多一种选择把,继续使用我们的不孕症数据(公众号回复:不孕症,可以获得数据)
library(pROC)
bc<-read.csv("E:/r/test/buyunzheng.csv",sep=',',header=TRUE)
数据有8个指标,最后两个是PSM匹配结果,我们不用理他,其余六个为:
Education:教育程度,age:年龄,parity产次,induced:人流次数,case:是否不孕,这是结局指标,spontaneous:自然流产次数。
有一些变量是分类变量,我们需要把它转换一下
bc$education<-ifelse(bc$education=="0-5yrs",0,ifelse(bc$education=="6-11yrs",1,2))
bc$spontaneous<-as.factor(bc$spontaneous)
bc$case<-as.factor(bc$case)
bc$induced<-as.factor(bc$induced)
bc$education<-as.factor(bc$education)
本文为转载文章,全文地址如下:https://mp.weixin.qq.com/s?__biz=MzI1NjM3NTE1NQ==&mid=2247486291&idx=1&sn=a7c61aa3e886777b8d7f5f05c2bf1809&chksm=ea26eb4fdd5162592a5b56ef2bba6c489564d0207ca415fd829d435121829d5080e9ee9bca20#rd