决策树解读

HawardScut

已于 2023-11-09 23:39:41 修改

阅读量513

点赞数

文章标签：决策树

于 2023-10-24 00:22:44 首次发布

本文链接：https://blog.csdn.net/hao5335156/article/details/134001743

版权

决策树

一、ID3/C4.5算法

概念

（1）信息熵

$-\sum_{i}^{N_{class}}P(x_i)log_2 P(x_i)$

假设只有2个类别（N=2），$ P(x_i) $在【 0 ， 1 】之间，$ log_2 P(x_i) $ 小于0，因此Entropy(x) 大于0；
当两类别概率分别0.5，0.5的时候（样本均匀）信息熵最大，此时纯度最低；当分别为1，0的时候信息熵最小，此时纯度最高；
因此，信息熵表示不确定性（混乱程度），纯度最低的时候混乱性最大。

息增益指的就是划分可以带来纯度的提高，信息熵的下降。

（2）信息增益–ID3

决策树划分需要往数据纯度提高的方向进行才能正确识别样本，即信息熵变小的方向，假设划分前的信息熵为 $S$ ，根据特征 $T$ 划分后的信息熵为 $S_{T}$ ，则 $S_{T}$ 的值应该最小，即 $S-S_{T}$ 的值（信息增益）应该最大；
即信息增益最大的时候划分的数据越纯；
信息增益的计算公式为：
$-\sum_{v\in T }^{} \frac{|S_v|}{|S|} Entropy(|S_v|)$
其中， $v$ 为特征 $T$ 的取值，当 $v$ 为特征 $T_1$ 时，一共有样本数目为 $S_v|$ ，该集合的信息熵为 $Entropy(|S_v|)$

（3）信息增益率–C4.5

$Gain_-ratio(S, T) = \frac{Gain(S, T) }{H_T(S)}$
其中，
$H_T(S) = -\sum_{v\in T }^{} \frac{|S_v|}{|S|} log_2 \frac{|S_v|}{|S|}$

假设集合S大小为9，特征T有3种类型的值A，B，C且集合大小都为3，3，3，则$H_T(S) $值最大，特征纯度最小，信息增益率最小；特征 T 1 有 3 种类型的值 A ， B ， C 且集合大小为 9 ， 0 ， 0 ，（即特征可取值数量较少）则$ H_T(S)$ 值最小，特征纯度最大，信息增益率最大；
因此，信息增益率偏向于可取值数目较少的属性。

二、CART树

参考

https://zhuanlan.zhihu.com/p/548190779
https://www.cnblogs.com/cgmcoding/p/14685828.html

三、GBDT

参考

https://blog.csdn.net/wzk4869/article/details/126392996
https://cloud.tencent.com/developer/article/1764843

四、XGBoost与GBDT的区别

参考

https://fengxc.me/GBDT详解.html

HawardScut

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树解读

Entropyx−i∑NclassPxilog2Pxi假设只有2个类别（N=2），$ P(x_i)在【01】之间，log_2 P(x_i) $ 小于0，因此Entropy(x) 大于0；当两类别概率分别0.5，0.5的时候（样本均匀）信息熵最大，此时纯度最低；当分别为1，0的时候信息熵最小，此时纯度最高；因此，信息熵表示不确定性（混乱程度），纯度最低的时候混乱性最大。息增益指的就是划分可以带来纯度的提高，信息熵的下降。
复制链接

扫一扫