决策树

最新推荐文章于 2023-02-15 09:23:48 发布

不忧不惧

最新推荐文章于 2023-02-15 09:23:48 发布

阅读量406

点赞数

本文链接：https://blog.csdn.net/qq_41655423/article/details/79931386

版权

本文深入探讨了决策树模型，从基本概念如if-then规则、条件概率分布到学习策略、特征选择、决策树生成（包括ID3和C4.5算法）、剪枝以及连续属性和缺失值处理。决策树以其可读性和高效性在分类和回归任务中得到广泛应用，并通过随机森林等方法进一步增强其性能。

摘要由CSDN通过智能技术生成

决策树

适用问题：多类分类、回归

模型特点：分类树、回归树

模型类别：判别模型

学习策略：正则化的极大似然估计

学习的损失函数：对数似然损失

学习算法：特征选择、生成、剪枝

优点：模型具有可读性，分类速度快

思想来源：Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法，以及由Breiman等人在1984年提出的CART算法

类似方法：决策列表

发展：随机森林

1. 决策树模型基本概念

决策树模型呈树形结构，在分类问题中表示基于特征对实例进行分类的过程，它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

1.1 决策树与if-then规则

由决策树的根结点到叶子结点的每一条路径构建一条规则；路径上内部结点的特征对应着规则的条件，而叶节点的类对应着规则的结论，决策树的路径或其对应的if-then规则集合具有一个重要的性质：互斥并且完备。这就是说，每一个实例都被一条路径或一条规则覆盖，而且只被一条路径或一条规则覆盖。这里所谓覆盖是指实例的特征与路径上的特征一致或实例满足规则的条件。

1.2 决策树与条件概率分布

决策树表示给定特征条件下类的条件概率分布。这一条件概率分布定义在特征空间的一个划分上。将特征空间划分为互不相交的单元或区域，并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应于划分中的一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。假设X为表示特征的随机变量，Y为表示类的随机变量，那么这个条件概率分布可以表示成P(Y|X)。X取值于给定划分下单元的集合，Y取值于类的集合。各叶节点(单元)上的条件概率往往偏向于某个类，即属于某个类的概率较大。决策树分类时将该结点的实例强行分到条件概率大的那一类去。

1.3 决策树学习

假设给定训练数据集

其中，为输入实例特征向量，n为特征个数，为类标记，i=1,2,...,N, N为样本容量。学习的目标是根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类。

注意：从所有可能的决策树中选取最优决策树是NP完全问题，所以现实中决策树学习算法通常采用启发式算法，近似求解这一最优化问题，这样得到的决策树是次最优的。

算法思想：递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程，这一过程对应着对特征空间的划分，也对应着决策树的构建，开始，构建根节点，将所有训练数据都放在根节点，选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。如果这些子集已经能够被基本正确分类，那么构建叶节点，并将这些子集分到对应的叶节点去；如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点。如此递归地进行下去，直至所有训练数据子集被基本正确分类，或者没有合适的特征为止。最后每个子集都被分到叶节点上，即都有了明确的类。这就生成了一颗决策树。

算法：

输入：训练集