决策树模型

本文介绍了如何使用scikit-learn库实现决策树、随机森林和梯度提升树等回归算法,比较了它们的性能指标如MSE和R2,并提供了使用这些算法进行预测的示例。同时提到了机器学习的基本概念和书籍推荐路径。
摘要由CSDN通过智能技术生成

基于决策树的模型根据训练数据构建一组规则,以便能够预测结果。为了便于理解,将该算法与通过决策形成的树进行比较。该模型包含表示通向结果路径(即叶子)的规则的分支。每个预测路径都指向一个包含多个值的叶。同样的原则也适用于分类型问题。对于回归类型的问题,最终预测通常是它所属的叶子中包含的所有值的平均值。

DTR split

下图显示了使用 sklearn 创建决策树模型的示例。

DTR Model

下图分析了模型性能。

DTR Compare

DTR Metrics

集成学习

集成学习是将弱模型组合在一起以生成性能更好的模型的算法类型。有关集成学习的详细信息,请参阅使用 Python 和 scikit-learn 学习分类算法教程,该教程讨论了用于分类的集成学习。

随机森林树木

决策树通常被认为是弱模型,因为当数据集相对较大时,它们的性能通常达不到预期。但是,当将多个决策树组合到一个模型中时,它们会提供更高的准确性。此随机林中的每个决策树都是使用训练数据的子集构建的。构成此随机森林的决策树的数量是一个任意数字,可以对其进行调整以查看准确性的变化。当要预测的值通过此生成的模型运行时,它是从这些单独的树中获取的值的平均值。

RFR Model

与前面的模型类似,下图显示了使用 sklearn 创建随机森林模型的示例。

RFR Compare

RFR Metrics

梯度提升树

梯度提升树是通过累加学习前一个模型的性能来构建的模型。有关梯度提升树的更多详细信息,请参阅使用 Python 和 scikit-learn 学习分类算法教程。

比较算法

均方误差和 R2 是用于比较不同回归算法的一些流行指标。

均方误差 (MSE) 是通过获取平方误差的平均值来计算的。这里的误差是指实际值和预测值之间的距离。MSE 越接近 0,模型性能越好。

R2 使用以下公式计算:

R2 = 1 - (SS残差 / SS平均值 )

其中 SS 残差是指实际值和预测值之间差值的平方和,SS 平均值是指实际值和平均值之间的差值平方和。从本质上讲,R2 的值越接近 1,模型就越好。如果值 R2 为负数,则表示模型性能比仅从训练数据集预测所有值的平均值更差。

下图比较了不同型号的 MSE 和 R2。

All R2

总结

在本教程中,我们提供了回归算法的高级概述,并展示了如何使用 scikit-learn 库实现这些算法。我们还使用 matplot lib 来可视化一些结果。

   在线教程

有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

请添加图片描述

人工智能书籍

第一阶段:零基础入门(3-6个月)

新手应首先通过少而精的学习,看到全景图,建立大局观。 通过完成小实验,建立信心,才能避免“从入门到放弃”的尴尬。因此,第一阶段只推荐4本最必要的书(而且这些书到了第二、三阶段也能继续用),入门以后,在后续学习中再“哪里不会补哪里”即可。

第二阶段:基础进阶(3-6个月)

熟读《机器学习算法的数学解析与Python实现》并动手实践后,你已经对机器学习有了基本的了解,不再是小白了。这时可以开始触类旁通,学习热门技术,加强实践水平。在深入学习的同时,也可以探索自己感兴趣的方向,为求职面试打好基础。

第三阶段:工作应用

这一阶段你已经不再需要引导,只需要一些推荐书目。如果你从入门时就确认了未来的工作方向,可以在第二阶段就提前阅读相关入门书籍(对应“商业落地五大方向”中的前两本),然后再“哪里不会补哪里”。

 有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

  • 10
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值