【机器学习笔记（五）】决策树简介/ 决策树算法 / 决策树的剪枝

Harmony_Launch

已于 2022-07-31 11:48:46 修改

阅读量450

点赞数

分类专栏： # 机器学习文章标签：决策树剪枝

于 2020-07-01 23:43:32 首次发布

本文链接：https://blog.csdn.net/Mrwxxxx/article/details/107074612

版权

13 篇文章 7 订阅

订阅专栏

老规矩–妹妹镇楼：

通过一种衡量标准，计算通过不同特征进行分支选择后的分类情况，找出情况最好的那个特征作为分支节点。

熵：熵是表示随机变量不确定性的度量，即物体内部的混乱程度。
公式：
$-\sum pi * log pi, i = 1, 2, ...n$

注意公式中的负号，由于pi是概率，在0-1之间，因此log pi 必为非正数，当概率pi越大，越接近于1，则log pi 越接近于0；反之，pi越小，越接近于0，则log pi 越接近于1；

熵：不确定性越大，则得到的熵值也就越大。
当p = 0 或 p = 1 时，H§ = 0, 随机变量完全没有不确定性
当p = 0.5时，H§ = 1,此时随机变量的不确定性最大

用信息增益判断，信息增益越大，说明选择此特征的效果越好。
信息增益：表示特征X使得类Y的不确定性减少的程度。（分类后的专一性，希望分类后的结果是同类在一起，混乱程度降低）

ID3算法：
信息增益，例如像ID这样的特征，若ID为0-14这14个数，每个ID的熵都为0，此时的熵为0，则意味着此时的信息增益是最大的，然而ID只是一个编号，对于解决问题没有帮助。这就是这个算法的问题，有的特征本身非常稀疏，里面的属性很多，但是每个属性里面的样本数很小，这样就容易计算出很小的熵值，信息增益就会计算得很大，但这是无意义的。
C4.5：
信息增益率，在信息增益的基础上，考虑自身的熵值，即信息增益比上自身的熵值，若本身的熵值就很大，那么在信息增益比上本身的熵值后，信息增益率就会很小，不会产生ID3算法的误解。
CART：
使用GINI系数来当做衡量标准
GINI系数： $\sum_{k=1}^{k}p_{k}(1- p_{k}) = 1 - \sum_{k=1}^{k}p_{k}^{2}$
和熵的衡量标准类似，计算方式不相同。

特征量过大，由于每次都要用剩余的特征来寻找最优信息增益，导致决策树过于庞大，决策树过拟合风险过大。即在训练集上表现非常好，但在测试集中表现很差。

预剪枝：
边建立决策树边进行剪枝。（更实用）
限制深度（特征数），叶子节点个数，叶子节点样本数，信息增益量等
后剪枝：
当建立完决策树后进行剪枝操作。
通过一定的衡量标准
$C_{\alpha }(T) = C(T) + \alpha \cdot \left | T_{leaf} \right |$

C(T)为当前节点损失，当前节点的所有叶子节点的样本数乘以基尼系数的和。
后剪枝限制叶子节点的个数，Tleaf为叶子节点个数，即叶子节点越多，损失越大。
上式用于判断节点是否需要分裂，先计算不分裂时的损失值，再计算分裂时的损失值，判断哪个损失小，选择哪种处理方式：分裂或不分裂。