java 分类回归树的构造过程_CART决策树（分类回归树）分析及应用建模

最新推荐文章于 2023-01-16 17:22:35 发布

鲁米那

最新推荐文章于 2023-01-16 17:22:35 发布

阅读量510

点赞数

文章标签： java 分类回归树的构造过程

本文链接：https://blog.csdn.net/weixin_34489829/article/details/114245009

版权

本文深入探讨了CART决策树模型，包括分类回归树的基本原理、决策树的优势、CART的特征选择（基于基尼系数）以及剪枝策略，如预剪枝和后剪枝。通过案例分析，展示了如何使用rpart()函数在R中构建和修剪决策树，以优化模型预测准确率。

摘要由CSDN通过智能技术生成

一、CART决策树模型概述(Classification And Regression Trees)

决策树是使用类似于一棵树的结构来表示类的划分，树的构建可以看成是变量(属性)选择的过程，内部节点表示树选择那几个变量(属性)作为划分，每棵树的叶节点表示为一个类的标号，树的最顶层为根节点。

决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树算法属于有指导的学习，即原数据必须包含预测变量和目标变量。决策树分为分类决策树(目标变量为分类型数值)和回归决策树(目标变量为连续型变量)。分类决策树叶节点所含样本中，其输出变量的众数就是分类结果；回归树的叶节点所含样本中，其输出变量的平均值就是预测结果。

决策树是一种倒立的树结构，它由内部节点、叶子节点和边组成。其中最上面的一个节点叫根节点。构造一棵决策树需要一个训练集，一些例子组成，每个例子用一些属性(或特征)和一个类别标记来描述。构造决策树的目的是找出属性和类别间的关系，一旦这种关系找出，就能用它来预测将来未知类别的记录的类别。这种具有预测功能的系统叫决策树分类器。

决策树有非常良好的优点：

1)决策树的够造不需要任何领域知识，就是简单的IF...THEN...思想；

2)决策树能够很好的处理高维数据，并且能够筛选出重要的变量；

3)由决策树产生的结果是易于理解和掌握的；

4)决策树在运算过程中也是非常迅速的；

5)一般而言，决策树还具有比较理想的预测准确率。

CART决策树又称分类回归树，当数据集的因变量为连续性数值时，该树算法就是一个回归树，可以用叶节点观察的均值作为预测值；当数据集的因变量为离散型数值时，该树算法就是一个分类树，可以很好的解决分类问题。但需要注意的是，该算法是一个二叉树，即每一个非叶节点只能引伸出两个分支，所以当某个非叶节点是多水平(2个以上)的离散变量时，该变量就有可能被多次使用。

决策树算法中包含最核心的两个问题，即特征选择和剪枝：

关于特征选择目前比较流行的方法是信息增益、增益率、基尼系数和卡方检验，下文就先介绍基于基尼系数的特征选择，因为本文所描述的CART决策树就是基于基尼系数选择特征的；

关于剪枝问题，主要分预剪枝和后剪枝，预剪枝是在树还没有生长之前就限定了树的层数、叶节点观测数量等，而后剪枝是在树得到充分生长后，基于损失矩阵或复杂度方法实施剪枝，下文将采用后剪枝的方法对树进行修正。

二、决策树的核心问题

决策树核心问题有二：一是利用Training Data完成决策树的生成过程；二是利用Testing Data完成对决策树的精简过程。即前面我们提到的，生成的推理规则往往过多，精简是必需的。

1)决策树的生长

决策树生长过程的本质是对Training Data反复分组(分枝)的过程，当数据分组(分枝)不再有意义——注意，什么叫分组不再有意义——时，决策树生成过程停止。因此，决策树生长的核心算法是确定数据分析的标准，即分枝标准。

何为有意义呢？注意，当决策树分枝后结果差异不再显著下降，则继续分组没有意义。也就是说，我们分组的目的，是为了让输出变量在差异上尽量小，到达叶节点时，不同叶节点上的输出变量为相同类别，或达到用户指定的决策树停止生成的标准。

这样，分枝准则涉及到两方面问题：1、如果从众多输入变量中选择最佳分组变量；2、如果从分组变量的众多取值中找到最佳分割点。不同的决策树算法，如C4.5、C5.0、Chaid、Quest、Cart采用了不同策略。

2)决策树的修剪

最低0.47元/天解锁文章

鲁米那

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java 分类回归树的构造过程_CART决策树（分类回归树）分析及应用建模

一、CART决策树模型概述(Classification And Regression Trees)决策树是使用类似于一棵树的结构来表示类的划分，树的构建可以看成是变量(属性)选择的过程，内部节点表示树选择那几个变量(属性)作为划分，每棵树的叶节点表示为一个类的标号，树的最顶层为根节点。决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树算法属...
复制链接

扫一扫