树模型与集成学习（一）——决策树

最新推荐文章于 2024-07-11 13:52:29 发布

新火之光

最新推荐文章于 2024-07-11 13:52:29 发布

阅读量246

点赞数

文章标签：决策树机器学习 python

本文链接：https://blog.csdn.net/qq_45878378/article/details/120748431

版权

树模型与集成学习（一）——决策树

习题1
参考资料

本博客为Datawhale组织的开源学习记录博客
学习的内容链接：树模型与集成学习

习题1

在这里插入图片描述

证明 $G (Y, X) = H (X) - H (X ∣ Y)$

由教案中，可得到如下公式
$G (Y, X) = H (Y) - H (Y ∣ X)$
$G(Y,X)=-\sum_{k=1}^K\sum_{m=1}^M p(y_k,x_m) \log_2\frac{p(y_k)p(x_m)}{p(y_k, x_m)}$
$H(Y)=-\sum_{k=1}^K p(y_k)\log_2p(y_k)$
$H(Y|X)=-\sum_{m=1}^Mp(x_m)\sum_{k=1}^K p(y_k\vert X=x_m)\log_2p(y_k\vert X=x_m)$

因此，我们可得到如下公式
$H(X)=-\sum_{m=1}^M p(x_m)\log_2p(x_m)$
$H(X|Y)=-\sum_{k=1}^Kp(y_k)\sum_{m=1}^M p(x_m\vert Y=y_k)\log_2p(x_m\vert Y=y_k)$

则
$\begin{aligned} H(X)-H(X|Y)&=-\sum_{m=1}^M p(x_m)\log_2p(x_m)+-\sum_{k=1}^Kp(y_k)\sum_{m=1}^M p(x_m\vert Y=y_k)\log_2p(x_m\vert Y=y_k) \\ &=-\sum_{m=1}^M[\sum_{k=1}^Kp(y_k, x_m)]\log_2p(x_m)+\sum_{m=1}^M \sum_{k=1}^Kp(y_k)\frac{p(y_k, x_m)}{p(y_k)}\log_2\frac{p(y_k, x_m)}{p(y_k)}\\ &=\sum_{m=1}^M \sum_{k=1}^Kp(y_k,x_m)[\log_2\frac{p(y_k, x_m)}{p(y_k)}-\log_2p(x_m)] \\ &=-\sum_{k=1}^K\sum_{m=1}^M p(y_k,x_m) \log_2\frac{p(y_k)p(x_m)}{p(y_k, x_m)}\\ &=G(Y,X) \end{aligned}$

原公式得证

证明 $G (Y, X) = H (X) + H (Y) - H (X, Y)$

由题干可知：
$\mathbb{E}_{(Y,X)\sim p(y,x)}[-\log_2p(Y,X)]$
则 $H(X,Y)=-\sum_{m=1}^M \sum_{k=1}^K p(x_m,y_k)\log_2p(x_m,y_k)$

则 $\begin{aligned} H(Y|X)&=-\sum_{m=1}^Mp(x_m)\sum_{k=1}^K p(y_k\vert X=x_m)\log_2p(y_k\vert X=x_m)\\ &=-\sum_{k=1}^K\sum_{m=1}^M p(x_m)\frac{p(y_k, x_m)}{p(x_m)}\log_2\frac{p(y_k, x_m)}{p(x_m)}\\ &=\sum_{k=1}^K\sum_{m=1}^M p(x_m)\frac{p(y_k, x_m)}{p(x_m)}\log_2{p(x_m)}-\sum_{k=1}^K\sum_{m=1}^M p(x_m)\frac{p(y_k, x_m)}{p(x_m)}\log_2{p(y_k, x_m)}\\ &=\sum_{m=1}^M p(x_m)\log_2p(x_m)-\sum_{m=1}^M \sum_{k=1}^K p(x_m,y_k)\log_2p(x_m,y_k)\\ &=-H(X)+H(X,Y))\\ \end{aligned}$
根据 $H (Y ∣ X) = - H (X) + H (X, Y)$ 和 $G (Y, X) = H (Y) - H (Y ∣ X)$ ,可得 $G (Y, X) = H (X) + H (Y) - H (X, Y)$

证明 $G(Y,X)=H(Y,X)-H(X\vert Y)-H(Y\vert X)$

已知 $G(Y,X)=H(X)+H(Y)-H(X,Y)\tag{1}$ $G(Y,X)=H(X)-H(X|Y))\tag{2}$ $G(Y,X)=H(Y)−H(Y|X))\tag{3}$ ,(3)式+(2)式-(1)式，即可得：
$G(Y,X)=H(Y,X)-H(X\vert Y)-H(Y\vert X)$

图片指代的区域

在这里插入图片描述

$H(X)=A+B\\ H(Y)=B+C\\ H(X|Y)=A\\ H(Y|X)=C\\ H(X,Y)=A+B+C\\ G(X,Y)=B$

练习2

假设当前我们需要处理一个分类问题，请问对输入特征进行归一化会对树模型的类别输出产生影响吗？请解释原因。
不会产生影响，树模型基于信息增益、信息增益率、基尼指数作为特征空间划分方法，任何特征的单调变换（不影响排序结果）均不会影响模型。

练习3

如果将系数替换为 $1-\gamma^2$ ，请问对缺失值是加强了还是削弱了惩罚？
削弱了惩罚，例如 $\gamma=0.5$ ,信息增益从0.5变为0.75，变得更重要，因此削弱了惩罚。

参考资料

https://www.zhihu.com/question/389542211/answer/1169859488

练习4

【练习】如果将树的生长策略从深度优先生长改为广度优先生长，假设其他参数保持不变的情况下，两个模型对应的结果输出可能不同吗？
不会，深度优先和广度优先只是搜索的顺序不同，而最终的结果并不会发生改变。

练习5

【练习】在一般的机器学习问题中，我们总是通过一组参数来定义模型的损失函数，并且在训练集上以最小化该损失函数为目标进行优化。请问对于决策树而言，模型优化的目标是什么？

决策树的目的是从训练集中归纳出一组分类规则，这个决策树要尽可能与训练集不矛盾，同时具有较好的泛化能力。

为了实现上述目标，决策树的损失函数通常为正则化的极大似然函数。

练习6

【练习】对信息熵中的 $\log$ 函数在 $p = 1$ 处进行一阶泰勒展开可以近似为基尼系数，那么如果在 $p = 1$ 处进行二阶泰勒展开我们可以获得什么近似指标？请写出对应指标的信息增益公式。

$\log$ 函数在 $p = 1$ 处进行泰勒二阶展开，则 $H(Y)=\mathbb{E}_YI(p)=\mathbb{E}_Y[-\log_2p(Y)]\approx\mathbb{E}_Y[\cfrac{p(Y)^2-4p(Y)+3}{2}]$
则 $\begin{aligned} {\rm Gini}(Y)&=\mathbb{E}_Y[\cfrac{p(Y)^2-4p(Y)+3}{2}]\\ &=\sum_{k=1}^K \tilde{p}(y_k)(\cfrac{{\tilde{p}^2(y_k)}-4{\tilde{p}(y_k)}+3}{2})\\ &=\cfrac{1}{2}(\sum_{k=1}^K\tilde{p}^3(y_k)-4\sum_{k=1}^K\tilde{p}^2(y_k)+3) \end{aligned}$

$\begin{aligned} {\rm Gini}(Y\vert X)&=\mathbb{E}_X[\mathbb{E}_{Y\vert X}[\cfrac{p(Y\vert X)^2-4p(Y\vert X)+3}{2}]]\\ &=\sum_{m=1}^M \tilde{p}(x_m)\sum_{k=1}^K[\tilde{p}(y_k\vert x_m)(\cfrac{{\tilde{p}^2(y_k\vert x_m)}-4{\tilde{p}(y_k\vert x_m)}+3}{2})]\\ &==\cfrac{1}{2}\sum_{m=1}^M \tilde{p}(x_m)[\sum_{k=1}^K\tilde{p}^3(y_k\vert x_m)-4\sum_{k=1}^K\tilde{p}^2(y_k\vert x_m)+3] \end{aligned}$

$G(Y,X)={\rm Gini}(Y)-{\rm Gini}(Y\vert X)$

练习7

【练习】除了信息熵和基尼系数之外，我们还可以使用节点的 $1-\max_{k}p(Y=y_k)$ 和第m个子节点的 $(1-\max_{k}p(Y=y_k\vert X=x_m)$ 来作为衡量纯度的指标。请解释其合理性并给出相应的信息增益公式。

节点的 $1-\max_{k}p(Y=y_k)$ 和第m个子节点的 $(1-\max_{k}p(Y=y_k\vert X=x_m)$ 其实就是分类中常用的错分率，好的模型要尽可能减少错分率，与信息熵的减少的目标一致。

信息增益公式 $G(Y,X)=\max_{k}p(Y=y_k\vert X=x_m)-\max_{k}p(Y=y_k)$

练习8

【练习】为什么对没有重复特征值的数据，决策树能够做到损失为0？
当决策树的节点树过多，甚至对每个数据，都构建一个叶子节点。如果没有重复特征值，则训练集便会达到100%正确率，就会使得损失为0

练习9

【练习】如何理解min_samples_leaf参数能够控制回归树输出值的平滑程度？
叶子过多，导致过拟合，所以需要设置min_samples_leaf，控制过拟合，从而控制输出值的平滑程度。

新火之光

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
树模型与集成学习（一）——决策树

树模型与集成学习（一）——决策树习题1证明 G(Y,X)=H(X)−H(X∣Y)G(Y,X)=H(X)-H(X|Y)G(Y,X)=H(X)−H(X∣Y)证明 G(Y,X)=H(X)+H(Y)−H(X,Y)G(Y,X)=H(X)+H(Y)-H(X,Y)G(Y,X)=H(X)+H(Y)−H(X,Y)证明G(Y,X)=H(Y,X)−H(X∣Y)−H(Y∣X)G(Y,X)=H(Y,X)-H(X\vert Y)-H(Y\vert X)G(Y,X)=H(Y,X)−H(X∣Y)−H(Y∣X)图片指代的区域练习2练习3参考
复制链接

扫一扫