决策树decision tree

最新推荐文章于 2023-07-07 19:54:06 发布

thinker_1120

最新推荐文章于 2023-07-07 19:54:06 发布

阅读量1.1k

点赞数

分类专栏：算法原理

本文链接：https://blog.csdn.net/cymy001/article/details/78027083

版权

算法原理专栏收录该内容

31 篇文章 1 订阅

订阅专栏

本文是《统计学习方法》李航著学习笔记。

决策树是一种基本的分类与回归方法，这里主要讨论用于分类问题的决策树。

决策树：由结点和有向边组成，“内部节点”表示“特征”，“叶结点”表示“类”。

决策树学习，也就是从训练数据集中归纳出一组分类规则，包含三步：特征选择、树的生成、树的剪枝，下面会分别对这三部分详细论证。

决策树分类，也就是利用决策树对测试实例点进行分类判断，流程如下：从深度为0的根节点开始，对测试实例点的某一特征进行测试，根据测试结果将该实例点分配到深度为1的子节点；下一步，对该实例点的另一个特征进行测试并分配，直至达到叶结点，将测试实例点分到叶结点的类中。注意，上述测试分类过程中，每一次的测试特征(即实例点特征向量的某个维度的特征)是决策树学习过程确定的，所以在对测试点进行分类时，只需要按顺序找到树结点测试特征对应的维度进行比对就可以了。

决策树 V.S. if-then V.S. 条件概率分布

把决策树“从根节点到叶结点的每一条路径”看成一条“if-then规则”：

a.路径上内部节点的特征对应着规则的判断条件;

b.路径的叶结点类对应着规则的结论.(互斥且完备)

把决策树看成“给定特征条件下，类的条件概率分布”：

决策树“从根节点到叶结点的每一条路径”相当于“特征空间的一个单元”，各个单元(叶结点)的形成是基于“该路径自顶向下的节点对应的特征判断条件”，也就是“各个单元内类的条件概率分布”中的“条件”是指“该路径自顶向下的节点对应的特征判断条件”。最后，决策树所表示的条件概率分布，就是各个单元的条件概率分布的并集。

决策树学习详解：

根据给定的训练数据集构建一个决策树模型，利用该模型对测试实例进行正确的分类。

通常，希望“模型对训练数据的拟合较好，又具有较好的泛化能力”，在决策树模型中，用“最小化损失函数”表示这一目标。

在构建决策树时，需要在每一步选择最优特征，根据该特征对训练数据集进行分割，使得对各个子数据集有一个最好的分类——如果子数据集能被基本正确分类，则构建叶结点，将子数据集中的实例点归结到叶结点中；如果子数据集不能被基本正确分类，则对该子数据集选择新的最优特征，继续分割构建子节点。直到所有训练数据子集被基本正确分类，或者没有合适的特征为止。

为了防止过拟合，需要对生成的树自下而上剪枝，去掉过分细分的叶结点，使其父节点或者更高的结点变成新的叶结点。

特征选择：决定用哪个特征来划分输入空间(特征空间)，准则是“信息增益”或“信息增益比”。