机器学习-二叉决策树

最新推荐文章于 2025-03-21 20:41:00 发布

cshilin

最新推荐文章于 2025-03-21 20:41:00 发布

阅读量1.2w

点赞数 2

分类专栏： C/C++ 计算机视觉与机器学习

本文链接：https://blog.csdn.net/cshilin/article/details/52155404

版权

本文介绍了决策树的构造过程，特别是ID3和C4.5算法。这两种算法通过信息增益和增益率来选择最佳属性进行分裂，构建决策树。ID3算法可能偏向于多值属性，而C4.5通过增益率解决了这个问题。内容包括熵、信息增益、信息增益率等概念，并提供了简单的示例说明如何使用这两种算法构建决策树。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于分类回归树，算法的要点是给树的每个结点定义一个衡量标准。比如，当我们拟合一个函数的时候，我们使用真实值和预测值的差的平方和，这就是衡量标准。算法的目的是使差的平方和最小。对于分类问题，我们定义一个度量，使得当一个结点的大多数值都属于同一类时，这个度量最小。三个最常用的度量是：熵(entropy)、吉尼系数(Giniindex)和错分类(misclassification)。决策树构成了其他算法的基础，比如bosting和随机树。

上图完整表达了这个女孩决定是否见一个约会对象的策略，其中绿色节点表示判断条件，橙色节点表示决策结果，箭头表示在一个判断条件在不同情况下的决策路径，图中红色箭头表示了上面例子中女孩的决策过程。

这幅图基本可以算是一颗决策树，说它“基本可以算”是因为图中的判定条件没有量化，如收入高中低等等，还不能算是严格意义上的决策树，如果将所有条件量化，则就变成真正的决策树了。

有了上面直观的认识，我们可以正式定义决策树了：

决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

可以看到，决策树的决策过程非常直观，容易被人理解。目前决策树已经成功运用于医学、制造产业、天文学、分支生物学以及商业等诸多领域。知道了决策树的定义以及其应用方法，下面介绍决策树的构造算法。