试将对缺失值的处理机制推广到基尼指数的计算中去

试将对缺失值的处理机制推广到基尼指数的计算中去

基尼指数的定义

  1. 基尼值:用于描述数据集的纯度,Gini(D)越小说明数据集D的纯度越高

在这里插入图片描述
其中,p_k是指样本集合D中第k类样本所占的频率。

  1. 属性a的基尼指数:

在这里插入图片描述

  1. 在候选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最优划分属性。即

在这里插入图片描述
基于基尼指数算法处理缺失值
(参考了《机器学习》——周志华)
这一部分包含许多参数,直接放上来会出现乱码所以直接截图基于上述定义,我们将基尼指数的计算式推广为
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值