决策树算法的实现:
一、C4.5算法的实现
a、需要的包:sampling、party
library(sampling)
library(party)
sampling用于实现数据分层随机抽样,构造训练集和测试集。
party用于实现决策树算法
另外,还可以设置随机数种子,可以获得相同的随机数。方便数据重复检验。
#设置随机数种子,可以获得相同的随机数
set.seed(100)
我们使用iris数据集作为算法使用的数据集,通过下列各方法可以查看数据集的各种指标。
head(iris)
str(iris)
dim(iris)
然后构造训练集和测试集
sub_train = strata(iris,
stratanames = "Species",
size = rep(35, 3),
method = "srswor")
data_train = iris[sub_train$ID_unit, ]
data_test = iris[-sub_train$ID_unit, ]
抽样方法是分层不放回抽样。
c、训练模型