随机森林是一个树形分类器的集合。随机森林是通过自助法重复抽样技术,从原始样本训练集中有放回地随机抽取k个样本生成新的训练集样本集合,然后根据自助样本集生成k个决策树组成的随机森林,最后根据所有决策树的预测结果来最终确定样本的预测结果。
1 在R软件中,用来实现随机森林的是randomForest软件包。
首先,安装并加载软件包。
install.packages("randomForest") #安装软件包
library(randomForest) #加载软件包
2 读取数据集。
gyyz_data=read.csv("gyyz.csv",head=T)
gyyz_data$is_rise=as.factor(gyyz_data$is_rise)#将目标变量转换成分类数据
head(gyyz_data);dim(gyyz_data)#查看数据维度
str(gyyz_data)#查看数据集中各变量的属性