基于决策树的模型根据训练数据构建一组规则,以便能够预测结果。为了便于理解,将该算法与通过决策形成的树进行比较。该模型包含表示通向结果路径(即叶子)的规则的分支。每个预测路径都指向一个包含多个值的叶。同样的原则也适用于分类型问题。对于回归类型的问题,最终预测通常是它所属的叶子中包含的所有值的平均值。
下图显示了使用 sklearn 创建决策树模型的示例。
下图分析了模型性能。
集成学习
集成学习是将弱模型组合在一起以生成性能更好的模型的算法类型。有关集成学习的详细信息,请参阅使用 Python 和 scikit-learn 学习分类算法教程,该教程讨论了用于分类的集成学习。
随机森林树木
决策树通常被认为是弱模型,因为当数据集相对较大时,它们的性能通常达不到预期。但是,当将多个决策树组合到一个模型中时,它们会提供更高的准确性。此随机林中的每个决策树都是使用训练数据的子集构建的。构成此随机森林的决策树的数量是一个任意数字,可以对其进行调整以查看准确性的变化。当要预测的值通过此生成的模型运行时,它是从这些单独的树中获取的值的平均值。
与前面的模型类似,下图显示了使用 sklearn 创建随机森林模型的示例。
梯度提升树
梯度提升树是通过累加学习前一个模型的性能来构建的模型。有关梯度提升树的更多详细信息,请参阅使用 Python 和 scikit-learn 学习分类算法教程。
比较算法
均方误差和 R2 是用于比较不同回归算法的一些流行指标。
均方误差 (MSE) 是通过获取平方误差的平均值来计算的。这里的误差是指实际值和预测值之间的距离。MSE 越接近 0,模型性能越好。
R2 使用以下公式计算:
R2 = 1 - (SS残差 / SS平均值 )
其中 SS 残差是指实际值和预测值之间差值的平方和,SS 平均值是指实际值和平均值之间的差值平方和。从本质上讲,R2 的值越接近 1,模型就越好。如果值 R2 为负数,则表示模型性能比仅从训练数据集预测所有值的平均值更差。
下图比较了不同型号的 MSE 和 R2。
总结
在本教程中,我们提供了回归算法的高级概述,并展示了如何使用 scikit-learn 库实现这些算法。我们还使用 matplot lib 来可视化一些结果。
在线教程
- 麻省理工学院人工智能视频教程 – 麻省理工人工智能课程
- 人工智能入门 – 人工智能基础学习。Peter Norvig举办的课程
- EdX 人工智能 – 此课程讲授人工智能计算机系统设计的基本概念和技术。
- 人工智能中的计划 – 计划是人工智能系统的基础部分之一。在这个课程中,你将会学习到让机器人执行一系列动作所需要的基本算法。
- 机器人人工智能 – 这个课程将会教授你实现人工智能的基本方法,包括:概率推算,计划和搜索,本地化,跟踪和控制,全部都是围绕有关机器人设计。
- 机器学习 – 有指导和无指导情况下的基本机器学习算法
- 机器学习中的神经网络 – 智能神经网络上的算法和实践经验
- 斯坦福统计学习
有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓
人工智能书籍
- OpenCV(中文版).(布拉德斯基等)
- OpenCV+3计算机视觉++Python语言实现+第二版
- OpenCV3编程入门 毛星云编著
- 数字图像处理_第三版
- 人工智能:一种现代的方法
- 深度学习面试宝典
- 深度学习之PyTorch物体检测实战
- 吴恩达DeepLearning.ai中文版笔记
- 计算机视觉中的多视图几何
- PyTorch-官方推荐教程-英文版
- 《神经网络与深度学习》(邱锡鹏-20191121)
- …
第一阶段:零基础入门(3-6个月)
新手应首先通过少而精的学习,看到全景图,建立大局观。 通过完成小实验,建立信心,才能避免“从入门到放弃”的尴尬。因此,第一阶段只推荐4本最必要的书(而且这些书到了第二、三阶段也能继续用),入门以后,在后续学习中再“哪里不会补哪里”即可。
第二阶段:基础进阶(3-6个月)
熟读《机器学习算法的数学解析与Python实现》并动手实践后,你已经对机器学习有了基本的了解,不再是小白了。这时可以开始触类旁通,学习热门技术,加强实践水平。在深入学习的同时,也可以探索自己感兴趣的方向,为求职面试打好基础。
第三阶段:工作应用
这一阶段你已经不再需要引导,只需要一些推荐书目。如果你从入门时就确认了未来的工作方向,可以在第二阶段就提前阅读相关入门书籍(对应“商业落地五大方向”中的前两本),然后再“哪里不会补哪里”。
有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓