R语言机器学习系列-决策树回归代码

最新推荐文章于 2024-08-22 20:19:49 发布

Mrrunsen

最新推荐文章于 2024-08-22 20:19:49 发布

阅读量1.8k

点赞数 1

分类专栏： R语言大学作业文章标签：机器学习决策树 r语言

本文链接：https://blog.csdn.net/Mrrunsen/article/details/123195439

版权

R语言大学作业专栏收录该内容

1431 篇文章 6365 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用R语言构建决策树回归模型，通过设置rpart函数的parms参数可以选择构建CART或ID3决策树。在面对样本不平衡问题时，可以调整损失函数的权重。完成模型构建后，进行后剪枝、变量重要性分析和树形图展示。接着，通过预测训练集概率、绘制ROC曲线和应用约登法则确定最佳概率分界点，最终得到混淆矩阵以评估模型性能。

摘要由CSDN通过智能技术生成

在模型构建部分，二分类模型与回归模型大致相似，主要在rpart函数中多了parms参数可以设置，其值是一个list，其中可以指定分裂规则，将其设定为gini则构建CART决策树，将其设定为information则构建ID3决策树；还可以指定损失函数的权重，这个在遇到训练集样本不平衡的情况时比较有用，具体可以看下帮助文档。

初始决策树构建好之后，后剪枝、输出变量重要性、树形图的操作均与回归部分类似。

得到最后的决策树二分类模型之后，先预测训练集样本的概率，然后计算ROC，绘制ROC曲线，并依据约登法则确定最佳概率分界点，然后依据预测概率和分界点即可得到预测类别，最后实际类别和预测类别比较即可得到混淆矩阵。后续用于测试集可以得到预测概率和预测类别。

关于依据约登法则得到最佳概率分界点的步骤，可以跳过，即直接用0.5作为分界点；也可以用单独的验证集来确定。实际操作中，各种都有，大家自行把握。

# 构建模型
set.seed(42) # 固定交叉验证结果
fit_dt_cls <- rpart(
  form_cls,
  data = traindata,
  method = "class", # 分类模型
  parms = list(split = "gini"

了解本专栏

超级会员免费看

Mrrunsen

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录