加权基尼指数的计算过程示例

正义的彬彬侠

于 2024-10-02 18:55:46 发布

阅读量732

点赞数 17

分类专栏：机器学习文章标签：机器学习决策树概率论人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013172930/article/details/142683685

版权

机器学习专栏收录该内容

60 篇文章 1 订阅

订阅专栏

问题背景

假设我们有一个数据集 $D$ ，总共包含 12 个样本，分为两类：类别 A 和类别 B。我们有一个特征 $X$ ，它可以将数据集划分为三个子集 $D_1$ 、 $D_2$ 和 $D_3$ 。

具体数据如下：

原始数据集 $D$ ：
- 类别 A：7 个样本
- 类别 B：5 个样本
特征 $X$ 的划分结果：
- 子集 $D_1$ （特征 $X$ 取值为 1 时）：5 个样本，其中 4 个是类别 A，1 个是类别 B。
- 子集 $D_2$ （特征 $X$ 取值为 2 时）：4 个样本，其中 2 个是类别 A，2 个是类别 B。
- 子集 $D_3$ （特征 $X$ 取值为 3 时）：3 个样本，其中 1 个是类别 A，2 个是类别 B。

现在我们计算原始数据集的基尼指数，以及划分后的加权基尼指数。

1. 计算原始数据集 $D$ 的基尼指数

原始数据集中，类别 A 的比例为 $p_A = \frac{7}{12}$ ，类别 B 的比例为 $p_B = \frac{5}{12}$ 。

基尼指数 $G (D)$ 的计算公式为：
$\sum_{k=1}^K p_k^2$

其中 $K$ 是类别的数量。在我们的例子中：

$G(D) = 1 - (p_A^2 + p_B^2)$

$\left( \left( \frac{7}{12} \right)^2 + \left( \frac{5}{12} \right)^2 \right)$

$\left( 0.3403 + 0.1736 \right) = 1 - 0.5139 = 0.4861$

因此，原始数据集 $D$ 的基尼指数为 0.4861。

2. 计算划分后子集的基尼指数

接下来，我们根据特征 $X$ 的划分结果，分别计算三个子集 $D_1$ 、 $D_2$ 和 $D_3$ 的基尼指数。

子集 $D_1$ 的基尼指数：

子集 $D_1$ 中，类别 A 的比例为 $p_A = \frac{4}{5} = 0.8$ ，类别 B 的比例为 $p_B = \frac{1}{5} = 0.2$ 。

基尼指数 $G(D_1)$ 计算为：
$G(D_1) = 1 - (p_A^2 + p_B^2)$

$G(D_1) = 1 - (0.8^2 + 0.2^2)$

$G(D_1) = 1 - (0.64 + 0.04) = 1 - 0.68 = 0.32$

子集 $D_2$ 的基尼指数：

子集 $D_2$ 中，类别 A 和类别 B 的比例相同， $p_A = p_B = 0.5$ 。

基尼指数 $G(D_2)$ 计算为：
$G(D_2) = 1 - (p_A^2 + p_B^2)$

$G(D_2) = 1 - (0.5^2 + 0.5^2)$

$G(D_2) = 1 - (0.25 + 0.25) = 1 - 0.5 = 0.5$

子集 $D_3$ 的基尼指数：

子集 $D_3$ 中，类别 A 的比例为 $p_A = \frac{1}{3}$ ，类别 B 的比例为 $p_B = \frac{2}{3}$ 。

基尼指数 $G(D_3)$ 计算为：
$G(D_3) = 1 - (p_A^2 + p_B^2)$

$G(D_3) = 1 - \left( \left( \frac{1}{3} \right)^2 + \left( \frac{2}{3} \right)^2 \right)$

$G(D_3) = 1 - \left( \frac{1}{9} + \frac{4}{9} \right) = 1 - \frac{5}{9} = 1 - 0.5556 = 0.4444$

3. 计算划分后的加权基尼指数

现在我们根据划分后的子集数量和基尼指数，计算划分后的加权基尼指数。公式如下：
$\sum_{i=1}^3 \frac{|D_i|}{|D|} G(D_i)$

其中：

$D_i|$ 是子集 $D_i$ 的样本数量， $∣ D ∣$ 是原始数据集的样本数量（即 12 个样本）。
$G(D_i)$ 是子集 $D_i$ 的基尼指数。

我们计算每个子集的加权比例：

$D_1$ 的权重： $\frac{5}{12}$
$D_2$ 的权重： $\frac{4}{12} = \frac{1}{3}$
$D_3$ 的权重： $\frac{3}{12} = \frac{1}{4}$

加权基尼指数的计算如下：
$\frac{5}{12} \times 0.32 + \frac{4}{12} \times 0.5 + \frac{3}{12} \times 0.4444$

逐项计算：

$\times 0.32 + 0.3333 \times 0.5 + 0.25 \times 0.4444$

$G (D ∣ X) = 0.1333 + 0.1667 + 0.1111 = 0.4111$

4. 比较划分前后的基尼指数

原始数据集 $D$ 的基尼指数是 0.4861。
划分后的加权基尼指数是 0.4111。

划分后的加权基尼指数更小，说明通过特征 $X$ 进行划分后，数据集的纯度有所提高。决策树会选择这个划分，因为它能够更好地区分数据类别。

总结

基尼指数用于衡量数据集的不纯度，基尼指数越低，表示数据集越纯净。
加权基尼指数用于评估特征划分的质量，通过对子集的基尼指数进行加权平均来衡量划分后数据集的纯度。
当加权基尼指数比原始数据集的基尼指数更小时，表示划分后数据集的纯度得到了提升，这通常是我们在构建决策树时希望看到的结果。

正义的彬彬侠

关注

17
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。