基尼值和基尼指数

本文介绍了CART决策树算法,该算法使用基尼指数选择最优划分属性。基尼指数衡量数据集的纯度,数值越小表示纯度越高。在构建决策树的过程中,通过计算各属性的基尼指数,选取最小值作为划分依据。文章还提供了一个案例,展示了如何依据基尼指数构建决策树的过程,并总结了CART算法的基本流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

CART 决策树 [Breiman et al., 1984] 使用"基尼指数" (Gini index)来选择划分属性。CART 是Classification and Regression Tree的简称,这是一种著名的决策树学习算法,分类和回归任务都可用。

一、基尼值和基尼指数

基尼值Gini(D):从数据集D中随机抽取两个样本,其类别标记不一致的概率。故,Gini(D)值越小,数据集D的纯度越高。

数据集 D 的纯度可用基尼值来度量:

                                                            

其中:

基尼指数Gini_index(D):一般,选择使划分后基尼系数最小的属性作为最优化分属性。

                                                             

二、案例

请根据下图列表,按照基尼指数的划分依据,做出决策树。

1,对数据集非序列标号属性{是否有房,婚姻状况,年收入}分别计算它们的Gini指数,取Gini指数最小的属性作为决策树的根节点属性。

2、第二次大循环

3、经过如上流程,构建的决策树,如下图:

现在总结一下CART的算法流程

while(当前节点"不纯"):
    1.遍历每个变量的每一种分割方式,找到最好的分割点
    2.分割成两个节点N1和N2
end while
每个节点足够“纯”为止

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值