Scikit-Learn与回归树

最新推荐文章于 2024-08-23 09:00:00 发布

尚小馨

最新推荐文章于 2024-08-23 09:00:00 发布

阅读量7.5k

点赞数 1

分类专栏：机器学习 Python爱好者文章标签：预测 CART 决策树机器学习

本文链接：https://blog.csdn.net/u011437229/article/details/53223520

版权

本文介绍了CART算法在回归任务中的应用，包括最小剩余方差法来构建决策树，并讨论了模型树的概念。通过Scikit-Learn库实现CART回归树，展示了如何利用该算法进行预测分析。

摘要由CSDN通过智能技术生成

回归算法原理

CART(Classification and Regression Tree)算法是目前决策树算法中最为成熟的一类算法，应用范围也比较广泛。它既可以用于分类。
西方预测理论一般都是基于回归的，CART是一种通过决策树方法实现回归的算法，它具有很多其他全局回归算法不具有的特性。
在创建回归模型时，样本的取值分为观察值和输出值两种，观察值和输出值都是连续的，不像分类函数那样有分类标签，只有根据数据集的数据特征来创建一个预测的模型，反映曲线的变化趋势。在这种情况下，原有分类树的最优划分规则就不再起作用了。在预测中，CART使用最小剩余方差（Squared Residuals Minimization）来判定回归树的最优划分，这个准则期望划分之后的子树与样本点的误差方差最小。这样决策树将数据集划分成很多子模型数据，然后利用线性回归技术来建模。如果每次切分后的数据子集仍然难以拟合，就继续切分。在这种切分方式下创建出的预测树，每个叶子节点都是一个线性回归模型。这些线性回归模型反映了样本集合（观测集合）中蕴含的模式，也被称为模型树。因此，CART不仅支持正体预测，也支持局部模式的预测，并有能力从整体中找到模式，或根据模式组合成一个整体。整体与模式之间的相互结合，对于预测分析有重要价值。因此CART决策树算法在预测中的应用非常广泛。
下面介绍CART的算法流程：
(1)决策树主函数：决策树的主函数是一个递归函数。该函数的主要功能是按照CART的规则生长出决策树的每个分支节点，并根据终止条件结束算法。
a.输入需要分类的数据集和类别标签。