[组队学习----机器学习]--决策树

最新推荐文章于 2024-01-09 14:23:35 发布

qq_35154293

最新推荐文章于 2024-01-09 14:23:35 发布

阅读量161

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_35154293/article/details/108169782

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

决策树

概念

决策树模型是一种对实例进行分类的树形结构。由内部节点–特征或属性；叶结点–类别组成。从根节点开始，对实例的某一特征测试，根据结果将实例分配到其子节点，依次递归测试完所有的特征取值，直至到达叶结点，即分到该类中。
每个决策树都可看成if-then规则，规则即为特征的选择，内部节点对应规则的条件，叶结点对应规则的结论。而且规则的一个重要性质是：互斥并且完备，即选择该特征之后要测试到所有的特征取值。

决策树学习

决策学习：给定训练数据集 $D=\{(x_1,y_1),(x_2,y_2),...(x_n,y_n)\}$ ,其中 $x_i=(x_i^1,x_i^2,...x_i^n)^T$ ，为输入示例（特征向量）， $y∈\{1,2,...K\}$ 为类标记。从训练数据集中归纳出一组分类规则，选择分类能力较好的特征。
决策树学习分为：特征选择，决策树生成，剪枝过程。

特征选择

特征选择标准分为：

信息增益
信息增益比
基尼指数

在介绍这三种标准之前，首先提出熵的概念，表示随机变量不确定性的度量,熵越大，不确定越大。设X为一个取有限个值的随机变量，其熵的定义为：
$H(X)=-\sum_{i=1}^{n} p_{i} \log p_{i}$
其中 $P(X=x_i)=p_i, \ i=1,2,...n$ 并且当 $p_i=0$ 时 $0 l o g 0 = 0$
条件熵：表示在已知随机变量X的条件下随机变量Y的不确定性。定义：X条件下Y的条件概率分布的熵对X的数学期望。
$\mid X)=\sum_{i=1}^{n} p_{i} H\left(Y \mid X=x_{i}\right)$
接下来明确一些符号概念：
在数据集 $D$ 中， $∣ D ∣$ 表示样本容量，设有 $K$ 个类 $C_k$ ， $C_k|$ 为属于类 $C_k$ 的样本个数； $C_k|$ 求和 $= ∣ D ∣$ 。设特征 $A有n个不同的取值\{a_1,a_2,…,a_n\}$ ，根据 $A$ 的取值将 $D$ 划分为 $n$ 个子集 $D_1,D_2,…D_n$ ；表示子集 $D_i$ 中属于类 $C_k$ 的样本的集合。

信息增益的计算
(1) 计算数据集 $D$ 的经验熵 $H (D)$
$H(D)=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|}$
(2) 计算特征 $A$ 对数据集 $D$ 的条件熵 $H (D ∣ A)$
$\mid A)=\sum_{i=1}^{n} \frac{\left|C_{k}\right|}{|D|} H\left(D_{i}\right)=-\sum_{i=1}^{n} \frac{\left|C_{k}\right|}{|D|} \sum_{k=1}^{K} \frac{\left|D_{i k}\right|}{D_{i} \mid} \log _{2} \frac{\left|D_{i k}\right|}{\left|D_{i}\right|}$
(3) 计算信息增益
$\mid A)$
信息增益比的计算
特征 $A$ 对数据集 $D$ 的信息增益比 $g_R(D,A)=\frac{信息增益g(D,A)}{数据集D关于特征A分类的熵H_A(D)}$
而 $H_{A}(D)=-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{D \mid} \log _{2} \frac{\left|D_{i}\right|}{|D|}，n是特征A取值的个数$
基尼指数的计算
分类问题中，假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼指数定义为：
${Gini}(p)=\sum_{k=1}^{K} p_{k}\left(1-p_{k}\right)=1-\sum_{k=1}^{K} p_{k}^{2}$
如果样本 $D$ 根据特征 $A$ 是否取某一可能值 $a$ 被划分为 $D_1$ 和 $D_2$ 两部分，即：
$\{(x, y) \in D \mid A(x)=a\}, D_{2}=D-D_{1}$
则在特征 $A$ 的条件下，集合 $D$ 的基尼指数定义为：
$A)=\frac{\left|D_{1}\right|}{|D|}{Gini}\left(D_{1}\right)+\frac{\left|D_{2}\right|}{|D|} {Gini}\left(D_{2}\right)$

决策树的生成

主要介绍三种经典的生成方法：ID3算法；C4.5算法以及CART算法。

ID3算法：
输入：训练数据集 $D$ ，特征 $A$ ，阈值 $ε$
输出：决策树 $T$
（1）如果 $D$ 中的实例都为同一类 $C_k$ ，则 $T$ 为单节点树，且类 $C_k$ 为该节点的类标记，返回 $T$
（2）如果 $A$ 为空集，则 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该节点的类标记，返回 $T$
（3）否则，按照上面的规则计算 $A$ 中个特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$
（4）如果 $A_g$ 的信息增益小于阈值 $ε$ ，则 $T$ 为单节点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该节点的类标记，返回 $T$
（5）否则，对 $A_g$ 的每一种可能值 $a_i$ ，依 $A_g=a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子结点，由结点及其子树构成树 $T$ ，返回 $T$ ；
（6）对第 $i$ 个子节点，以 $D_i$ 为训练集，以 $A-\{A_g\}$ 为特征集，递归地执行（1）~（5），得到子树 $T_i$ ，返回 $T$ 。

信息增益偏向于取值较多的特征，因为当特征取值较多时，根据此特征划分更容易得到纯度更高的子集，因此划分之后的熵更低。所以会很容易造成过拟合，而C4.5采用信息增益比作为特征选择标准，在一定程度上防止了过拟合。

C4.5算法：
与ID3算法的流程一样，只是在选择特征时，采用信息增益比作为选择标准。
CART算法
输入：训练数据集D ，停止计算的条件；
输出：CART决策树
根据训练数据集，从根结点开始，递归地对每个结点进行以下操作，构建二叉树：
（1）设结点的训练数据集为 $D$ ，计算现有特征对该数据集的基尼指数。此时，对每一个特征 $A$ ，对其可能取的每个值 $a$ ，根据样本点 $A = a$ 的测试为“是“或“否”将 $D$ 分割为 $D_1和D_2$ 两部分，利用上式来计算 $A = a$ 时的基尼指数。
（2）在所有可能的特征A以及它们所有可能的切分点 $a$ 中，选择基尼指数最小的特征及其对应可能的切分点作为最有特征与最优切分点。依最优特征与最有切分点，从现结点生成两个子节点，将训练数据集依特征分配到两个子节点中去。
（3）对两个子结点递归地调用（1）、（2）,直至满足条件。
（4）生成CART决策树
算法停止计算的条件是结点中的样本个数小于预定阈值，或样本集的基尼指数小于预定阈值，或者没有更多特征。

CART剪枝

CART采用的办法是后剪枝法，即先生成决策树，然后产生所有可能的剪枝后的CART树，然后使用交叉验证来检验各种剪枝的效果，选择泛化能力最好的剪枝策略。
CART树的剪枝算法可以概括为两步：第一步是从原始决策树生成各种剪枝效果的决策树，第二部是用交叉验证来检验剪枝后的预测能力，选择泛化预测能力最好的剪枝后的数作为最终的CART树。
具体流程还没有搞的太明白-.-，可以参考《统计学习方法》第85页，或者参考决策树算法理论（下）

总结

CART算法相比C4.5算法的分类方法，采用了简化的二叉树模型，同时特征选择采用了近似的基尼系数来简化计算。当然CART树最大的好处是还可以做回归模型，这个C4.5没有。

算法	支持模型	树结构	特征选择	连续值处理	缺失值处理	剪枝
ID3	分类	多叉树	信息增益	不支持	不支持	不支持
C4.5	分类	多叉树	信息增益比	支持	支持	支持
CART	分类、回归	二叉树	基尼指数	支持	支持	支持

1）无论是ID3, C4.5还是CART,在做特征选择的时候都是选择最优的一个特征来做分类决策，但是大多数，分类决策不应该是由某一个特征决定的，而是应该由一组特征决定的。这样决策得到的决策树更加准确。这个决策树叫做多变量决策树(multi-variate decision tree)。在选择最优特征的时候，多变量决策树不是选择某一个最优特征，而是选择最优的一个特征线性组合来做决策。这个算法的代表是OC1，这里不多介绍。
2）如果样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习里面的随机森林之类的方法解决。

决策树算法的优点：
1）简单直观，生成的决策树很直观。
2）基本不需要预处理，不需要提前归一化，处理缺失值。
3）使用决策树预测的代价是 $O(log_2m)$ 。 m为样本数。
4）既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
5）可以处理多维度输出的分类问题。
6）相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以得到很好的解释
7）可以交叉验证的剪枝来选择模型，从而提高泛化能力。
8）对于异常点的容错能力好，健壮性高。
决策树算法的缺点:
1）决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。
2）决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
3）寻找最优的决策树是一个NP难的问题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。
4）有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。
5）如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。
参考至刘建平，决策树原理