下面将在iris数据集上,演示如何使用party包中的函数ctree来建立一棵决策树。
iris数据集中的Sepal.Length、Sepal.Width、Petal.Length和Petal.Width,都将用来预测鸢尾花的种类。
party包中的函数ctree用来建立决策树,函数predict用来对新数据进行预测。
建模之前,将iris数据集划分为两个子集:其中70%的数据用于训练,剩下的30%做测试,为了获得可重现的结果,随机种子设定为固定值。
str(iris)
set.seed(1234)
ind <- sample(2, nrow(iris), replace=TRUE, prob=c(0.7, 0.3))
trainData <- iris[ind==1,]
testData <- iris[ind==2,]
下面先加载party包,并建立一棵决策树,然后查看预测结果。
函数ctree用于控制决策树训练的几个参数是,minSplit、MinBusket、Maxsurrogate和MaxDepth。
决策树,使用这几个参数的默认设置来建立一棵决策树。
代码中,myFormula指定了Species为目标变量,其余的所有变量为自变量。
library(party)
myFormula <- Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width
iris_ctree <- ctree(myFor
iris数据集中的Sepal.Length、Sepal.Width、Petal.Length和Petal.Width,都将用来预测鸢尾花的种类。
party包中的函数ctree用来建立决策树,函数predict用来对新数据进行预测。
建模之前,将iris数据集划分为两个子集:其中70%的数据用于训练,剩下的30%做测试,为了获得可重现的结果,随机种子设定为固定值。
str(iris)
set.seed(1234)
ind <- sample(2, nrow(iris), replace=TRUE, prob=c(0.7, 0.3))
trainData <- iris[ind==1,]
testData <- iris[ind==2,]
下面先加载party包,并建立一棵决策树,然后查看预测结果。
函数ctree用于控制决策树训练的几个参数是,minSplit、MinBusket、Maxsurrogate和MaxDepth。
决策树,使用这几个参数的默认设置来建立一棵决策树。
代码中,myFormula指定了Species为目标变量,其余的所有变量为自变量。
library(party)
myFormula <- Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width
iris_ctree <- ctree(myFor