R语言编写决策树(rpart)CART ID3算法

本文介绍了如何使用R语言进行决策树建模,包括数据预处理、建立ID3和CART决策树、剪枝以及利用测试集评估模型。通过威斯康星州乳腺癌数据集,展示了决策树在预测任务中的应用,强调了剪枝对于防止过拟合的重要性,并给出了决策树画图和模型评估的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树(decision tree)是一类常见的机器学习方法。以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新示例进行分类,这个把样本分类的任务,可看做对“当前样本属于正常吗?”这个问题的‘决策’或者‘判定’过程。顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。


常用的决策树算法:

  1. ID3 以信息增益作为分类标准
  2. CART 以基尼系数作为分类标准
    算法的具体理论可以参考周志华的《机器学习》

数据预处理

loc<-"http://archive.ics.uci.edu/ml/machine-learning-databases/"
ds<-"breast-cancer-wisconsin/breast-cancer-wisconsin.data"
url<-paste(loc,ds,sep="")
data<-read.table(url,sep=",",header=F,na.strings="?")
names(data)<-c("编号","肿块厚度","肿块大小","肿块形状","边缘黏附","单个表皮细胞大小","细胞核大小","染色质","细胞核常规","有丝分裂","类别")
#print(data)
data$类别[data$类别==2]<-"良性"
data$类
评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值