R语言机器学习系列-决策树回归代码

本文介绍了如何使用R语言构建决策树回归模型,通过设置rpart函数的parms参数可以选择构建CART或ID3决策树。在面对样本不平衡问题时,可以调整损失函数的权重。完成模型构建后,进行后剪枝、变量重要性分析和树形图展示。接着,通过预测训练集概率、绘制ROC曲线和应用约登法则确定最佳概率分界点,最终得到混淆矩阵以评估模型性能。
摘要由CSDN通过智能技术生成

在模型构建部分,二分类模型与回归模型大致相似,主要在rpart函数中多了parms参数可以设置,其值是一个list,其中可以指定分裂规则,将其设定为gini则构建CART决策树,将其设定为information则构建ID3决策树;还可以指定损失函数的权重,这个在遇到训练集样本不平衡的情况时比较有用,具体可以看下帮助文档。

初始决策树构建好之后,后剪枝、输出变量重要性、树形图的操作均与回归部分类似。

得到最后的决策树二分类模型之后,先预测训练集样本的概率,然后计算ROC,绘制ROC曲线,并依据约登法则确定最佳概率分界点,然后依据预测概率和分界点即可得到预测类别,最后实际类别和预测类别比较即可得到混淆矩阵。后续用于测试集可以得到预测概率和预测类别。

关于依据约登法则得到最佳概率分界点的步骤,可以跳过,即直接用0.5作为分界点;也可以用单独的验证集来确定。实际操作中,各种都有,大家自行把握。

# 构建模型
set.seed(42) # 固定交叉验证结果
fit_dt_cls <- rpart(
  form_cls,
  data = traindata,
  method = "class", # 分类模型
  parms = list(split = "gini"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mrrunsen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值