在前文中,我们已经详细介绍了决策树算法中的ID3/C4.5/CART算法的原理,以及决策树的剪枝问题。
ID3算法戳我
C4.5算法戳我
CART算法戳我
决策树剪枝问题戳我
本文将详细介绍如何用R语言实现决策树算法。
算法
区分要点
R包
ID3
使用信息增益
rpart包中rpart函数
C4.5
使用信息增益
RWeka包中J48()
CART
使用gini
rpart包中rpart函数
C5.0
C4.5的改进,比较适合于大规模数据
c50包
文章目录
数据简介
R语言实现
ID3算法
CART算法
C4.5算法
C5.0算法
数据简介
本文数据选择了红酒质量分类数据集,这是一个很经典的数据集,原数据集中“质量”这一变量取值有{3,4,5,6,7,8}。为了实现二分类问题,我们添加一个变量“等级”,并将“质量”为{3,4,5}的观测划分在等级0中,“质量”为{6,7,8}的观测划分在等级1中。
数据下载
因变量:等级
自变量:非挥发性酸性、挥发性酸性、柠檬酸、剩余糖分、氯化物、游离二氧化硫、二氧化硫总量、浓度、pH、硫酸盐、酒精
library(openxlsx)
wine = read.xlsx(".../wi