CART决策树
“这棵树看起来生气了”——伐木机
基于基尼指数增益最大化的原则,二叉树形式,如果特征变量拥有多个离散变量,则变成二叉树形式。
例如学历有本科、硕士、博士,就转化成,本科-非本科(硕士或者博士),硕士-非硕士(本科或者博士),博士-非博士(本科或者硕士)
代码
library(rpart)
library(rpart.plot)
#iris分成训练集和测试集
set.seed(1234)
index <- sample(1:nrow(iris), size = 0.75*nrow(iris))
train <- iris[index,]
test <- iris[-index,]
fit1 <- rpar