机器学习(二)---决策树算法总结_决策树的计算复杂度-CSDN博客

本文链接：https://blog.csdn.net/hzqgangtiexia/article/details/80444490

本文介绍了决策树算法，包括其工作原理、优缺点、评价、主要算法如ID3、C4.5和CART，以及剪枝策略。讨论了连续值处理、缺失值处理和多变量决策树的概念，同时提到了决策树在C++和Python中的实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 综述

决策树就是通过一系列规则对数据进行分类的一种算法，可以分为分类树和回归树两类，分类树处理离散变量的，回归树是处理连续变量。

样本一般都有很多个特征，有的特征对分类起很大的作用，有的特征对分类作用很小，甚至没有作用。如决定是否对一个人提供贷款时，这个人的信用记录、收入等就是主要的判断依据，而性别、婚姻状况等等就是次要的判断依据。决策树构建的过程，就是根据特征的决定性程度，先使用决定性程度高的特征分类，再使用决定性程度低的特征分类，这样构建出一棵倒立的树，就是我们需要的决策树模型，可以用来对数据进行分类。决策树学习的过程可以分为三个步骤：

1）特征选择，即从众多特征中选择出一个作为当前节点的分类标准；

2）决策树生成，从上到下构建节点；

3）剪枝，为了预防和消除过拟合，需要对决策树剪枝。

2.评价

优点：

1：理解和解释起来简单，且决策树模型可以想象，对中间值的缺失不敏感，可以处理不相关特征数据；
2：需要准备的数据量不大，而其他的技术往往需要很大的数据集，需要创建虚拟变量，去除不完整的数据，但是该算法对于丢失的数据不能进行准确的预测
3：决策树算法的时间复杂度(即预测数据)是用于训练决策树的数据点的对数
4：能够处理数字和数据的类别（需要做相应的转变），而其他算法分析的数据集往往是只有一种类型的变量
5：能够处理多输出的问题
6：使用白盒模型，如果给定的情况是在一个模型中观察到的，该条件的解释很容易解释的布尔逻辑，相比之下，在一个黑盒子模型（例如人工神经网络），结果可能更难以解释
7：可能使用统计检验来验证模型，这是为了验证模型的可靠性
8：从数据结果来看，它执行的效果很好，虽然它的假设有点违反真实模型

缺点：

1：决策树算法学习者可以创建复杂的树，但是没有推广依据，这就是所谓的过拟合，为了避免这种问题，出现了剪枝的概念&