XGBOOST算法完整推论

最新推荐文章于 2024-04-19 09:39:59 发布

不忘初心继续前行

最新推荐文章于 2024-04-19 09:39:59 发布

阅读量1k

点赞数 2

分类专栏：算法文章标签：算法

本文链接：https://blog.csdn.net/GreatMichael001/article/details/84392314

版权

$X G B O O S T$

ID3:

信息增益(information gain)
$Gain(D,a)=Ent(D)-\sum_{v=1}^V\dfrac{|D^v|}{|D|}{Ent(D^v)}\quad\quad(1)$
其中： $Ent(D)=-\sum_{k=1}^y{P_klog_2P_k}$ 也称为熵。
$\quad\quad$ 决策树的本质是训练数据集中归纳出一组分类规则，我们需要的是一个训练数据矛盾较小的决策树，同时具有很好的泛化能力。 $E n t (D)$ 的值越小，则 $D$ 的训读就越高,熵表示随机变量不确定性的度量。
$表一：贷款申请样本数据表$

ID	年龄	有工作	有自己房子	信贷情况	类别
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
4	青年	是	是	一般	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
8	中年	是	是	好	是
9	中年	否	是	非常好	是
10	中年	否	是	非常好	是
11	老年	否	是	非常好	是
12	老年	否	是	好	是
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

例题一：计算上述个样本的信息增益
① $H(D)=-\dfrac{9}{15}log_2\dfrac{9}{15}-\dfrac{6}{15}log_2\dfrac{6}{15}=0.971$

$g(D,A_1)=H(D)-[\dfrac{5}{15}H(D_1)+\dfrac{5}{15}H(D_2)+\dfrac{5}{15}H(D_3)]$

$\quad\quad\quad\quad$ $=0.971-[\dfrac{5}{15}(-\dfrac{2}{5}log_2\dfrac{2}{5})-\dfrac{3}{5}log_2\dfrac{3}{5})$

$\quad\quad\quad\quad\quad\quad\quad\quad$ $+\dfrac{5}{15}(-\dfrac{3}{5}log_2\dfrac{3}{5})-\dfrac{2}{5}log_2\dfrac{2}{5})$

$\quad\quad\quad\quad\quad\quad\quad\quad$ $+\dfrac{5}{15}(-\dfrac{4}{5}log_2\dfrac{4}{5})-\dfrac{1}{5}log_2\dfrac{1}{5})]$

$\quad\quad\quad\quad$ $= 0.971 - 0.888$
$\quad\quad\quad\quad$ $= 0.083$
② $g(D,A_2)=H(D)-[\dfrac{5}{15}H(D_1)+\dfrac{10}{15}H(D_2)]$
$\quad\quad\quad\quad\quad$ $= 0.971 - 0.647$
$\quad\quad\quad\quad\quad$ $= 0.324$
③ $g(D,A_3)=H(D)-[\dfrac{6}{15}H(D_1)+\dfrac{9}{15}H(D_2)]$

$\quad\quad\quad\quad\quad$ $= 0.971 - 0.551$
$\quad\quad\quad\quad\quad$ $= 0.420$
④ $g(D,A_4)=H(D)-[\dfrac{4}{15}H(D_1)+\dfrac{6}{15}H(D_2)+\dfrac{5}{15}H(D_3)]$

$\quad\quad\quad\quad\quad$ $= 0.971 - 0.608$
$\quad\quad\quad\quad\quad$ $= 0.363$

C4.5：

$\qquad$ 特征A对训练数据集D的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g (D, A)$ 与训练数据集D关于特征A的值的熵 $H_A(D)$ 之比即： $gainRatio(D,A)=\frac{g(D,A)}{H_A(D)}\quad\quad(2)$
其中： $H_A(D)=\sum_{i=1}^n\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}$
例如：对年龄求 $H_A(D)$
则 $H_{A_1}(D)=-\dfrac{5}{15}(-\dfrac{2}{5}log\dfrac{2}{5}-\dfrac{3}{5}log\dfrac{3}{5})$

$\quad\quad\quad\quad=-\dfrac{5}{15}(-\dfrac{3}{5}log\dfrac{3}{5}-\dfrac{2}{5}log\dfrac{2}{5})$

$\quad\quad\quad\quad=-\dfrac{5}{15}(-\dfrac{4}{5}log\dfrac{4}{5}-\dfrac{1}{5}log\dfrac{1}{5})$

$\quad\quad\quad\quad=0.888$
则 $gainRatio(D,A_1)=\dfrac{g(D,A_1)}{H_{A1}(D)}=\dfrac{0.083}{0.888}=0.093$

同理： $gainRatio(D,A_2)=\dfrac{0.324}{0.647}=0.501$

$\quad\quad gainRatio(D,A_3)=\dfrac{0.420}{0.551}=0.762$

$\quad\quad gainRatio(D,A_4)=\dfrac{0.363}{0.608}=0.597$
$\quad$ 增益率准则对可取值数目较少的属性有所偏好，因此C4.5算法并不是直接选取增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益最高的。
剪枝
$\quad$ 预剪枝：在决策树生成过程过程中，在每个节点上划分之前先进行估计，若当前节点的划分不能带来决策树的泛化性能提升，则停止划分并将当前节点标记为叶节点。
$\quad$ 后剪枝：是先从训练集中生成一棵完整的决策树，然后自底向上对非叶节点进行考察，若将该节点对应的子树替换为叶节点能带来决策树泛化性能的提升，则将该子树替换为叶节点。
$\quad$ 决策树的剪枝，往往是通过极小化决策树整体的损失函数或代价函数来实现，决策树学习的损失函数可以定义为： $C_\alpha(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T|\quad\quad(3)$
其中： $∣ T ∣$ 为叶子节点个数， $t$ 是树 $∣ T ∣$ 的叶节点，该叶节点有 $N_t$ 个样本点，其中 $k$ 类的样本点有 $N_{tk}$ 个。
$H_t(T)=-\sum_{k}\dfrac{N_{tk}}{N_t}log_2\dfrac{N_{tk}}{N_t}\quad\quad(4)$
在损失函数中
$C(T)=\sum_{t=1}^{|T|}N_tH_t(T)=-\sum_{t=1}^{|T|}\sum_{k=1}^{K}N_{tk}log_2\dfrac{N_{tk}}{N_t}\quad\quad(5)$
则 $C_\alpha(T)=C(T)+\alpha{|T|}$

例： ${|T|}$ 其实就是模型的复杂度。

颜色	测试人员	结果
yellow	adult	1
yellow	child	0

$1^°$ 局部剪枝前，该节点的损失为： $C_\alpha(T)=C(T)+\alpha{|T|}=0+2\alpha=2\alpha$
$2^°$ 局部剪枝后，该节点的损失为： $C_\alpha(T)=C(t)+\alpha{|t|}=C(t)+\alpha$

其中： $C(t)=N_tH_t=2(-\dfrac{1}{2}log\dfrac{1}{2}-\dfrac{1}{2}log\dfrac{1}{2})=2$

故： $C_\alpha(T)=2+\alpha$ ，定义 $\alpha=\frac{特征个数}{2}$

CART

$\quad$ CART同样是由特征选择树的生成及剪枝组成，既可用于分类也可用于回归，常用Gini系数度量。
$\quad$ CART由两步组成，①决策树的生成基于训练数据生成决策树，生成的树尽量大。②决策树的剪枝，用验证数据集对已经生成的树进行剪枝，并选择最优子树，此时用损失函数最小作为剪枝的标准。
**例：**还以前面表格为例
$\quad A_1,A_2,A_3,A_4$ 分别表示年龄、有工作、有自己房子和信贷情况这四个特征并以1、2、3表示青中老年，以1、2表示有工作和有自己房子的值为是和否，以1、2、3表示信贷情况的值为非常好、好、一般，求特征A的基尼指数。
$Gain(D,A_1=1)=\frac{5}{15}[2×\frac{2}{5}×(1-\frac{2}{5})+\frac{10}{15}[2×\frac{7}{10}×(1-\frac{7}{10})]=0.44$

$Gain(D,A_1=2)=\frac{5}{15}[2×\frac{3}{5}×(1-\frac{3}{5})+\frac{10}{15}[2×\frac{6}{10}×(1-\frac{6}{10})]=0.48$

$Gain(D,A_1=3)=\frac{5}{15}[2×\frac{4}{5}×(1-\frac{4}{5})+\frac{10}{15}[2×\frac{5}{10}×(1-\frac{5}{10})]=0.44$
即： $A_1、A_3$ 都可以，选 $A_1$ 青年一类，(中、老年)为一类。
有工作和有自己的房子都是二份，可以不用切分，则信贷情况 $A_4$ :
$Gain(D,A_4=1)=\dfrac{4}{15}×0+\dfrac{11}{15}[2×\dfrac{5}{11}×(1-\dfrac{5}{11})]=0.36$

$Gain(D,A_4=2)=0.47$

$Gain(D,A_4=3)=0.32$
则： $Gain(D,A_4=3)$ 最小，故选为最优切分点。
$\begin{cases} Gain(D,A_1=3)=0.44\\&&&&\\ Gain(D,A_2=1)=0.32=\frac{5}{15}×(1×0×2)+\frac{10}{15}×(\frac{4}{10}×\frac{6}{10}×2)=0.32\\&&&&\\ Gain(D,A_3=1)=0.27=\frac{6}{15}×(1×0×2)+\frac{9}{15}×(\frac{3}{9}×\frac{6}{9}×2)=0.27\\&&&&\\ Gain(D,A_4=3)=0.32 \end{cases}$

最低0.47元/天解锁文章

不忘初心继续前行

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
XGBOOST算法完整推论

XGBOOSTXGBOOSTXGBOOSTID3:信息增益(information gain)Gain(D,a)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv)(1)Gain(D,a)=Ent(D)-\sum_{v=1}^V\dfrac{|D^v|}{|D|}{Ent(D^v)}\quad\quad(1)Gain(D,a)=Ent(D)−v=1∑V∣D∣∣Dv∣Ent(Dv)(1...
复制链接

扫一扫