ML 45. 机器学习之快速实现随机生存森林 (Ranger)-CSDN博客

本文链接：https://blog.csdn.net/weixin_41368414/article/details/140075458

简介

Ranger 软件是一个快速实现高维数据的随机森林。支持集成分类、回归和生存树。用参考实现验证包，并将运行时和内存使用情况与其他实现进行比较。新软件被证明是最好的缩放与特征，样本，树的数量，并尝试分裂的特征。最后，表明 Ranger 是最快和最有效的实现随机森林在全基因组关联研究的规模上分析数据。

软件包安装

if(!require(ranger))
  install.packages("ranger")
if(!require(ranger))
  devtools::install_github("imbs-hl/ranger")

数据读取

数据说明：

futime: survival or censoring time
fustat: censoring status
age: in years
resid.ds: residual disease present (1=no,2=yes)
rx: treatment group
ecog.ps: ECOG performance status (1 is better, see reference)

data(cancer, package="survival")
head(ovarian)

##   futime fustat     age resid.ds rx ecog.ps
## 1     59      1 72.3315        2  1       1
## 2    115      1 74.4932        2  1       1
## 3    156      1 66.4658        2  1       2
## 4    421      0 53.3644        2  2       1
## 5    431      1 50.3397        2  1       1
## 6    448      0 56.4301        1  1       2

实例操作

参数说明：

?ranger

构建模型

根据说明ovarian数据集，构建模型:

library(ranger)
require(survival)

fit <- ranger(Surv(futime, fustat) ~ ., data = ovarian, importance = "impurity")
fit
## Ranger result
## 
## Call:
##  ranger(Surv(futime, fustat) ~ ., data = ovarian, importance = "impurity") 
## 
## Type:                             Survival 
## Number of trees:                  500 
## Sample size:                      26 
## Number of independent variables:  4 
## Mtry:                             2 
## Target node size:                 3 
## Variable importance mode:         impurity 
## Splitrule:                        logrank 
## Number of unique death times:     12 
## OOB prediction error (1-C):       0.2568807

重要变量分析

fit$variable.importance

##       age  resid.ds        rx   ecog.ps 
## 6.1362046 1.3665241 0.9877156 1.2586800

par(mar=c(4,8,4,4))
barplot(sort(fit$variable.importance),las=2,horiz = T)

预测

pred <- predict(fit, ovarian, type = "response")
pred$num.independent.variables
## [1] 4

ovarian$pred = ifelse(pred$survival[, 1] > median(pred$survival[, 1]), "High", "Low")

一致性

library(Hmisc)
rcorr.cens(pred$survival[, 1], Surv(ovarian$futime, ovarian$fustat))
##        C Index            Dxy           S.D.              n        missing 
##      0.7889908      0.5779817      0.1475544     26.0000000      0.0000000 
##     uncensored Relevant Pairs     Concordant      Uncertain 
##     12.0000000    436.0000000    344.0000000    214.0000000

生存分析

直接做生存分析即可：

library(survminer)
km <- survfit(Surv(futime, fustat) ~ pred, data = ovarian)
ggsurvplot(km, data = ovarian, surv.median.line = "hv", legend.title = "Risk Group",
    legend.labs = c("High Risk", "Low Risk"), pval = TRUE, ggtheme = theme_bw())

绘制ROC曲线

library(pROC)
roc <- roc(ovarian$fustat, pred$survival[, 1], legacy.axes = T, print.auc = T, print.auc.y = 45)
roc$auc
## Area under the curve: 0.7083

plot(roc, legacy.axes = T, col = "red", lwd = 2, main = "ROC curv")
text(0.2, 0.2, paste("AUC: ", round(roc$auc, 3)))

Reference

Wright, M. N. & Ziegler, A. (2017). ranger: A fast implementation of random forests for high dimensional data in C++ and R. J Stat Softw 77:1-17.
Schmid, M., Wright, M. N. & Ziegler, A. (2016). On the use of Harrell’s C for clinical risk prediction via random survival forests. Expert Syst Appl 63:450-459.
Wright, M. N., Dankowski, T. & Ziegler, A. (2017). Unbiased split variable selection for random survival forests using maximally selected rank statistics. Stat Med 36:1272-1284.