0 决策树基础

汀沿河

已于 2024-04-19 11:12:55 修改

阅读量1k

点赞数 13

分类专栏：机器学习基础 # 3 算法模型文章标签：机器学习决策树

于 2024-03-28 16:09:13 首次发布

本文链接：https://blog.csdn.net/qq_28611929/article/details/137115040

版权

3 算法模型同时被 2 个专栏收录

14 篇文章 3 订阅

订阅专栏

机器学习基础

2 篇文章 0 订阅

订阅专栏

1 绪论

2 模型

3 决策树面试总结

1 绪论

决策树算法包括ID3、C4.5以及C5.0等，这些算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。

决策树是一种树结构，从根节点出发，每个分支都将训练数据划分成了互不相交的子集。分支的划分可以以单个特征为依据，也可以以特征的线性组合为依据。决策树可以解决回归和分类问题，在预测过程中，一个测试数据会依据已经训练好的决策树到达某一叶子节点，该叶子节点即为回归或分类问题的预测结果。

从概率论的角度理解，决策树是定义在特征空间和类空间上的条件概率分布。每个父节点可以看作子树的先验分布，子树则为父节点在当前特征划分下的后验分布。

决策树中的每一条路径都对应是划分的一个条件概率分布. 每一个叶子节点都是通过多个条件之后的划分空间，在叶子节点中计算每个类的条件概率，必然会倾向于某一个类，即这个类的概率最大。

2 模型

2.1 ID3

信息熵：信息熵用来度量样本集合的纯度。信息熵值越小，D 的纯度越高。

$Ent(D) =-\sum_{k=1}^{K} p_{k} log_{2}p_{k}$

信息增益：信息增益用来描述一次划分之后纯度的提升有多大。分裂节点前后不确定性提升了多少。用不同的属性划分样本，会得到不同的信息增益。在 ID3 决策树算法中，我们取能使信息增益最大，即划分后纯度提升（不确定性降低）最大的属性作为当前决策树的划分属性。

$Gain(D,A) = H(D) - H(D|A)$

信息增益率(c4.5)：使用信息增益当作 cost function 会对可取值数目较多的属性有所偏好，使用信息增益率可以减小这种偏好。添加一个权重，一个特征取值个数越多那么折算越大。折算系数就是特征的熵。

-- IV 是属性 a 的固有值，a 的可能取值数目越多(V 越大)，IV(a) 的值通常越大，信息增益率就会减小。显然信息增益率偏好可取值数目少的属性，不能直接使用它当作 cost function，在 C4.5 决策树算法中，先从侯选属性里找出信息增益高于平均值的属性们，再从中选取信息增益率最高的。

信息增益就是互信息。

互信息：描述的是两个随机变量之间相互依赖的程度。具体而言，互信息指获得一个随机变量后，观察另一个随机变量所获得的“信息量”。

3 熵、信息增益、相对熵、互信息、交叉熵

名称	概念
熵	是信息论中用来衡量随机变量不确定性的度量；越混乱熵值愈大。
联合熵	是指多个随机变量联合分布的熵，用于衡量这些随机变量之间的不确定性。
条件熵（Conditional Entropy）	条件熵是在给定另一个随机变量的条件下，一个随机变量的熵。它衡量了在已知一些信息的情况下，另一个随机变量的不确定性。
相对熵（Kullback-Leibler Divergence）	也称为 KL 散度，是衡量两个概率分布之间差异的度量。相对熵用于衡量一个概率分布相对于另一个概率分布的不确定性差异
互信息（Mutual Information）	是一种衡量两个随机变量之间相互依赖性的度量。互信息衡量了两个随机变量之间的信息共享程度，即一个随机变量中的信息对另一个随机变量的信息量的影响。
信息增益	信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度，即用来衡量特征X区分数据集的能力。

3.1 熵

熵（Entropy）是信息论中用来衡量随机变量不确定性的度量；越混乱熵值愈大，这个跟物理里面的是不是很相似。公式描述下：

$H(x) = -\sum p(x)logp(x)$

3.2 联合熵

随机变量 $x,y$ 的联合分布为 $p(x,y)$ ,二者的联合熵为：

$H(x,y) = -\sum _x\sum_yp(x,y)logp(x,y)$

3.3 条件熵

在 $X=x$ 条件下 $Y$ 的熵为 $H(Y|X=x)=-\sum_yp(y|x)logp(y|x)$

条件熵是：

$H(Y|X) = \sum_xp(x)H(Y|X=x)$

联合熵 = 单变量熵 + 单变量的条件熵

$H(x,y) = H(x) + H(y|x)$

https://blog.csdn.net/weixin_36480255/article/details/112640356

互信息、交叉熵、KL散度等公式信息量、熵、最大熵、联合熵、条件熵、相对熵、互信息，信息增益_熵和信息量-CSDN博客

4 决策树面试总结

ref : https://blog.csdn.net/Heitao5200/article/details/103762474

1 . 决策树和条件概率分布的关系？

决策树可以表示成给定条件下类的条件概率分布，P（A｜B）。我们知道贝叶斯分类中采用贝叶斯定律以及条件独立假设，使用极大似然以及先验概率求得寻找能在当前输入X最大的概率y P（Y=y｜X=x）。

2. 信息增益比相对信息增益有什么好处？

使用信息增益时：模型偏向于选择取值较多的特征
使用信息增益比时：对取值多的特征加上的惩罚，对这个问题进行了校正。

3 ID3算法—>C4.5算法—> CART算法

ID3:

ID3算法没有考虑连续特征，比如长度，密度都是连续值，无法在ID3运用。这大大限制了ID3的用途。
ID3算法采用信息增益大的特征优先建立决策树的节点，偏向于取值比较多的特征;
ID3算法对于缺失值的情况没有做考虑;
ID3算法没有考虑过拟合的问题;

C4.5:

连续的特征离散化
使用信息增益比
通过剪枝算法解决过拟合；

C4.5算法常选择后剪枝的方法消除决策树的过度拟合

C4.5的不足：

C4.5生成的是多叉树
C4.5只能用于分类，如果能将决策树用于回归的话可以扩大它的使用范围。
C4.5由于使用了熵模型，里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算

CART算法:(二叉树)

可以做回归，也可以做分类，
使用基尼系数来代替信息增益比
CART分类树离散值的处理问题，采用的思路是不停的二分离散特征。
CART剪枝分为预剪枝和后剪枝两种主要方式；

4 决策树怎么防止过拟合？

预剪枝(提前停止)：控制深度、当前的节点数、分裂对测试集的准确度提升大小
限制树的高度，可以利用交叉验证选择
利用分类指标，如果下一次切分没有降低误差，则停止切分；
限制树的节点个数，比如某个节点小于100个样本，停止对该节点切分
后剪枝(自底而上)：生成决策树、交叉验证剪枝：子树删除，节点代替子树、测试集准确率判断决定剪枝。在决策树构建完成之后，根据加上正则项的结构风险最小化自下向上进行的剪枝操作. 剪枝的目的就是防止过拟合，是模型在测试数据上变现良好，更加鲁棒。

5 如果特征很多，决策树中最后没有用到的特征一定是无用吗？

不是无用的，从两个角度考虑：