什么是基尼指数

彬彬侠

已于 2024-10-02 18:57:05 修改

阅读量2.4k

点赞数 6

分类专栏：机器学习(笔记) 文章标签：机器学习决策树概率论人工智能

于 2024-10-02 13:00:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013172930/article/details/142680371

版权

机器学习(笔记) 专栏收录该内容

360 篇文章

订阅专栏

基尼指数（Gini Index） 是一种用于衡量分类不纯度的指标，常用于决策树算法，特别是在 CART（Classification and Regression Trees） 算法中。它是用来评估数据集或数据子集的纯度，反映了数据集中不同类别分布的均匀程度。基尼指数越小，数据集的纯度越高，越倾向于包含单一类别；基尼指数越大，表示数据集中的类别更加混杂、不纯。

基尼指数的定义

对于一个数据集 $D$ ，它的基尼指数 $G (D)$ 定义为：
$\sum_{k=1}^K p_k^2$

其中：

$K$ 是数据集中类别的总数。
$p_k$ 是数据集中属于第 $k$ 类的样本所占的比例。

基尼指数的取值范围在 0 和 1 之间。具体含义如下：

当基尼指数为 0 时，表示数据集中所有样本都属于同一类别，数据集非常纯。
当基尼指数接近 1 时，表示数据集中样本均匀分布在多个类别中，数据集非常混杂。

基尼指数的直观解释

基尼指数衡量的是从数据集中随机抽取两个样本，它们类别不同的概率。基尼指数值越低，表示数据集越纯；基尼指数值越高，表示数据集越不纯。

基尼指数的计算步骤

计算每个类别的比例：
对于数据集中的每个类别 $k$ ，计算该类别的样本数量占数据集总样本数量的比例 $p_k$ 。
计算基尼指数：
使用公式 $\sum_{k=1}^K p_k^2$ ，将所有类别的概率平方后求和，再用 1 减去这个和。

举例说明

假设我们有一个数据集 $D$ ，其中包含 10 个样本，分为两类：类别 A 和类别 B。

类别 A 的样本数为 6 个。
类别 B 的样本数为 4 个。

1. 计算每个类别的比例：

类别 A 的比例 $p_A = \frac{6}{10} = 0.6$ 。
类别 B 的比例 $p_B = \frac{4}{10} = 0.4$ 。

2. 计算基尼指数：

$G(D) = 1 - (p_A^2 + p_B^2)$

$G(D) = 1 - (0.6^2 + 0.4^2)$

$G (D) = 1 - (0.36 + 0.16)$

$G (D) = 1 - 0.52 = 0.48$

因此，这个数据集的基尼指数为 0.48，表示数据集的类别分布具有一定的不纯性。

基尼指数在决策树中的作用

在决策树算法中，基尼指数用于选择最佳的划分特征。特征的划分会将数据集分成多个子集，我们可以计算划分后每个子集的基尼指数，选择能够最小化划分后加权平均基尼指数的特征。

加权基尼指数的计算

对于某个特征 $X$ 的划分，将数据集 $D$ 分成多个子集 $D_1, D_2, \dots, D_n$ ，我们可以计算划分后的加权基尼指数：
$\sum_{i=1}^n \frac{|D_i|}{|D|} G(D_i)$

其中：

$D_i$ 是特征 $X$ 划分出的第 $i$ 个子集。
$G(D_i)$ 是子集 $D_i$ 的基尼指数。
$D_i|$ 是子集 $D_i$ 的样本数量， $∣ D ∣$ 是原始数据集的样本数量。

通过对比不同特征的加权基尼指数，决策树算法会选择使加权基尼指数最小的特征进行划分。
加权基尼指数计算过程示例

基尼指数和熵的比较

基尼指数和信息熵是两种常用于衡量数据集纯度的指标，二者有一些相似之处，但在计算方式和使用场景上有所不同：

信息熵在理论上来自于信息论，考虑了更多的概率分布细节，通常在 ID3 和 C4.5 决策树中使用。
基尼指数计算更简单，主要用于 CART 决策树算法。

在决策树构建过程中，基尼指数通常比熵计算速度更快，但它们的实际效果通常相似。

总结

基尼指数用于衡量数据集的不纯度，它反映了数据集中随机选择的两个样本属于不同类别的概率。
在决策树算法中，基尼指数用于选择最优的划分特征，特征的划分应尽量使得子集的基尼指数最小。
基尼指数和信息熵在功能上类似，都是用于度量数据集的纯度，但基尼指数计算相对简单，常用于 CART 决策树算法。

博客等级

码龄11年

1506
原创

2万+
点赞

2万+
收藏

9472
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

CatBoost中目标变量统计
彬彬侠: 《CatBoost: unbiased boosting with categorical features》https://arxiv.org/abs/1706.09516 这篇文章的公式4
CatBoost中目标变量统计
路离135: 您好，我正在写论文，请问您的catboostd S(A)公式来自于哪篇文献，如果可以的话请您尽快回复，老师催我交定稿，感谢您的回复，非常感谢您
【Python】loguru 库：轻量、易用且功能强大的日志库
北风之神c: 总结的很全面的日志使用，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
【Docker】设置镜像加速器：修改/etc/docker/daemon.json
彬彬侠: 加速器可能都被下线了。直接上梯子或者给docker设置个代理
【Docker】设置镜像加速器：修改/etc/docker/daemon.json
疯狂的塞恩: 验证加速器没有生效

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

彬彬侠 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。