gini impurity的相关内容

基尼不纯度(Gini Impurity)和熵是衡量数据分类质量的重要指标。基尼不纯度从0到0.5变化,数值越大表示分类越不纯;熵的最大值为1,表示最大的不确定性。两者都用于决策树等算法中,基尼不纯度计算更简单。例如,当数据分布不均时,基尼不纯度先增后减。理解这些概念有助于优化数据分类和模型性能。
摘要由CSDN通过智能技术生成
  • gini impurity
    基尼杂质
    公式:
    G ( y ) = 1 − ∑ 1 ≤ i ≤ n ( p ( i ) ) 2 G(y) =1-\sum_{\mathclap{1\le i\le n}} \def \foo {(p_{(i)})^2} \foo G(y)=11in(p(i))2
    n : 分为几类class
    p(i) :第 i 类占样本总数的比例

    gini impurity会随data的分布不均先增后减

    例如:有两类数据A、B,数据总数14
    A:0 B:14 G = 0
    A:1 B:13 G = 0.1328
    A:7 B:7 G = 0.5
    A:14 B:0 G= 0

    熵与基尼杂质的区别:
    熵的最大值 1
    基尼杂质的最大值 0.5
    基尼杂质在计算上易于计算
    两者都能用于判断数据分类的好坏 数值越大分类越差

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值