此文主要涉及随机森林分类分析,主要包含以下几部分内容:
1)随机森林基础知识
2)randomForest()认识及构建分类判别模型;
3)随机森林参数调优
4)随机森林模型评估
classification rate、Sensitivity和specificity和ROC curve/AUC value
5)特征变量重要性筛选及绘图
重要性指数排序、交叉验证及Boruta算法筛选
一、 准备数据
此处使用的包含分类信息的虚构微生物otu数据,用于构建随机森林分类模型。主要分析目的:1)构建准确率高的随机森林分类模型,2)检测分类水平间重要的OTUs(biomarkers)。
# 1.1 导入数据
setwd("D:\\EnvStat\\公众号文件\\随机森林分析") # 设置工作路径
#dir()
#file.show("otu.csv")
otu = read.csv("otu.csv",row.names = 1,header = TRUE,check.names = FALSE,stringsAsFactors = FALSE) # 微生物组数据
dim(otu