机器学习:决策树(使用基尼系数划分节点数据集)

本文详细介绍了决策树中基尼系数的概念,包括公式、计算示例,以及如何使用基尼系数划分节点数据集。通过Python代码展示了如何在sklearn库中实现决策树,并对比了基尼系数与信息熵的区别。
摘要由CSDN通过智能技术生成

一、基础理解

  1. 决策树结构中,每个节点处的数据集划分到最后,得到的数据集中一定只包含一种类型的样本;
 1)公式
  1. k:数据集中样本类型数量;
  2. Pi:第 i 类样本的数量占总样本数量的比例

 

 2)实例计算基尼系数
  • 3 种情况计算基尼系数:
  • 基尼系数的性质与信息熵一样:度量随机变量的不确定度的大小
  1. G 越大,数据的不确定性越高;
  2. G 越小,数据的不确定性越低;
  3. G = 0,数据集中的所有样本都是同一类别;

 

 3)只有两种类别的数据集
  1. x:两类样本中,其中一类样本数量所占全部样本的比例;
  2. 当 x = 0.5,两类样本数量相等时,数据集的确定性最低;

 

 

二、使用基尼系数划分节点数据集

 1)格式
  • from sklearn.t
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值