生成决策树所需要的分裂指标(基尼系数)

1.基尼系数:

最大为1,最小为0。越接近于0代表收入越平等,越接近于1代表收入越悬殊。

那么在决策树分类中,Gini系数越小,数据集合大小越平等,代表集合数据越纯。

我们可以在分类前计算一下Gini系数,分类后在计算一下Gini系数。找到分类后最小的基尼系数就代表分类条件最好。我们一定要找到某个分类条件可以使得分类后的基尼系数最小。可以尝试多个分类条件,哪个分类条件分类完成后基尼系数最小,哪个分类条件就比较好。

例如:对年龄分类是<30得到的基尼系数最小还是<25得到的基尼系数最小。

或者干脆不用年龄作为指标用身高等等。从中选择一个计算后基尼系数最小的作为指标。

所以我们可以看出决策树这样计算量还是很大的。

分类前基尼系数计算公式

k是代表k各类别.

分类后基尼系数计算公式:

简单解释一下分类过程:

Gini系数是根据一个先验知识选择一个数据特征(预定分类条件),做出分类后,有一批有左边分支,有一批走右边分支,然后可以根据公式计算出分类后每个节点的Gini系数,Gini系数是0就可以不用分类了,另一边Gini系数不为0可以继续分类,那么这个分支可以再选择一个特征继续分类,分类完成后再次计算Gini系数,最终计算分类后的基尼系数,最小的话说明选择的数据特征最合适,分类比较正确收益最大。

上图是对鸢尾花进行三分类

根据petal length<=2.45分成两个路径

左边的基尼系数计算:1-\sum_{k=1}^{3}p_{k}^{2}=1-(\frac{50}{50})^{2}-(\frac{0}{50})^{2}-0=0得到基尼系数是0,说明数据分类最纯。

右边的基尼系数计算:1-0-\frac{1}{4}-\frac{1}{4}=0.5上面左边基尼系数同样计算公式。

分类后总的基尼系数:\frac{50}{150} * 0.0 + \frac{100}{150}*0.5 = \frac{1}{3},如果众多分类条件中这个基尼系数最小,那么我们就选择这个基尼系数。

分类前的基尼系数-分类后的基尼系数=收益   0.6667-0.3333=\frac{1}{3}(收益越大越好)

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值