西瓜书——决策树

最新推荐文章于 2024-10-01 19:47:06 发布

m1nG77

最新推荐文章于 2024-10-01 19:47:06 发布

阅读量41

点赞数

文章标签：决策树算法

本文链接：https://blog.csdn.net/m1nG77/article/details/134537237

版权

本文介绍了决策树模型的构造方法，包括递归结构和if-else划分策略。重点讲解了信息增益和基尼指数作为划分准则，以及预剪枝和后剪枝技术用于避免过拟合，提升泛化性能。

摘要由CSDN通过智能技术生成

决策树

信息增益：

借用信息论中的信息熵，我们可以用信息熵的值度量一个样本集合的纯度。熵可以理解为混乱程度\不确定度，则熵越小，纯度越高。在信息论中，我们知道：
$-\sum_{k=1}^{n}p_klog_2p_k\\ H(D|a) = \sum_kp(y_k)H(D|y_k)\\ Gain(D;a)=I(D;a) = H(D)-H(D|a)$
则平均互信息即为我们所要求的信息增益。它表示在已知集合 $D$ 的不确定性后，集合 $D$ 因为已知属性 $a$ 的信息后，自身不确定性减少的值。所以信息增益越大，表示知道其取值以后样本集合不确定性减小的越多，则样本集越纯。（具体例子见书，还是比较通俗易懂的）
增益率：
$=\frac{Gain(D;a)}{IV(a)}\\ IV(a)=H(a)$
$I V (a)$ 称为属性 $a$ 的固有值，即可理解为属性 $a$ 的熵。
基尼指数：

在分类问题中，假设有 $K$ 类，样本点属于第 $k$ 类的概率为 $p_k$ ，则基尼值定义为：
$\sum_{k=1}^{K}p_k(1-p_k)\\=1-\sum_{k=1}^{K}p_k^2$
可以理解为任取一个样本被误分类的概率。

则基尼指数定义为：
$\sum_{i=1}^K\frac{|D_i|}{|D|}Gini(D_i)$
我们只需要选择使得基尼指数最小的划分即可。

信息论原来这么有用啊，为什么考完试才发现D: