-
gini impurity
基尼杂质
公式:
G ( y ) = 1 − ∑ 1 ≤ i ≤ n ( p ( i ) ) 2 G(y) =1-\sum_{\mathclap{1\le i\le n}} \def \foo {(p_{(i)})^2} \foo G(y)=1−1≤i≤n∑(p(i))2
n : 分为几类class
p(i) :第 i 类占样本总数的比例gini impurity会随data的分布不均先增后减
例如:有两类数据A、B,数据总数14
A:0 B:14 G = 0
A:1 B:13 G = 0.1328
A:7 B:7 G = 0.5
A:14 B:0 G= 0熵与基尼杂质的区别:
熵的最大值 1
基尼杂质的最大值 0.5
基尼杂质在计算上易于计算
两者都能用于判断数据分类的好坏 数值越大分类越差
gini impurity的相关内容
最新推荐文章于 2022-12-10 23:00:00 发布
基尼不纯度(Gini Impurity)和熵是衡量数据分类质量的重要指标。基尼不纯度从0到0.5变化,数值越大表示分类越不纯;熵的最大值为1,表示最大的不确定性。两者都用于决策树等算法中,基尼不纯度计算更简单。例如,当数据分布不均时,基尼不纯度先增后减。理解这些概念有助于优化数据分类和模型性能。
摘要由CSDN通过智能技术生成