大家好,国庆假期都过得怎么样啊?假期余额不足,本人终于想起了更新。
话不多说,R语言随机森林实战代码+讲解奉上~
#首先的首先,设置路径setwd("你自己的文件目录")#首先,装包!install.packages("pacman")pacman::p_load(randomForest,caret,pROC)
然后,导数据!
这里我用的是R自带的iris鸢尾花数据集。
data("iris")summary(iris)
如果你想用本地数据集,也可以在这步导入进来。
dat "./dataset.csv",header=T)
接下来,就是划分训练、测试集。一般是按7:3或者8:2的比例进行划分,即训练集占总体数据集的70%,这部分是用来建模的。剩下的30%为测试集,用来衡量模型效果。
在更多的情况下,总体数据集会被划分为训练集、验证集、测试集,比例一般为8:1:1。其中,验证集是为了衡量每次模型调整参数以后的效果,以达到模型最佳结果。
trainlist 0.7, trainset testset
建模开始啦!第一步,基于训练集数据,构