决策树之基尼系数

本文介绍了决策树中的基尼系数概念,解释了如何理解基尼系数,并通过实例展示了其在二分类和多分类问题中的应用。基尼系数用于评估模型预测效果,决策树利用基尼系数来指导节点划分,追求纯度最高的分类结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、概念

    在决策树中,除了用似然估计推导出的信息熵损失函数之外,还有一个基尼系数(意思是在一个数据集中随机抽出两个样本,其标记不同的概率)

 

                                                           GINI=1-\sum_{i=0}^{m} p_{m}^{2}

二、理解

    怎么理解呢?针对一个贷款人员是否违约的二分类问题,1表示违约,0表示不违约,我们来描述一下。

    当我们用模型对数据进行预测时,预测结果肯定是得到0和1两个标记类别的数据集,但值得注意的是,我们的模型预测准确率肯定达不到100%,所以预测标记为0的数据集肯定会包括实际标记为1的样本。此时我们从预测标记为0的数据集中随机抽出两个样本,其中实际标记为0的用户的占比为p,实际为1的用户占比为(1-p),计算出这两个样本标记不同的概率为p(1-p),但同时我们还有预测标记为1的数据集,抽出两个样本,标记不同的概率也是p(1-p),此时我们就可以得到一个结果为p(1-p)+(1-p)p,这代表了我们模型的预测效果的好坏。

    假设我们的模型是三分类呢?预测标记为0的类别中实际标记为0的样本占比为p0;预测标记为1的类别中实际占比1的样本占比为p1;2类别占比为p2。则分别从三个类别从都抽取出两个样本,得出每

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值