1.定义:基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率。
注意: Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。
def gini_index_single(a,b):
single_gini = 1 - ((a/(a+b))**2) - ((b/(a+b))**2)
return round(single_gini,4)
# 求取基尼指数
def gini_index(a,b,c,d,e,f):
zuo = gini_index_single(a,b)
zhong = gini_index_single(c,d)
you = gini_index_single(e,f)
sum = a+b+c+d+e+f
gini_index = zuo*((a+b)/sum) + zhong*((c+d)/sum) + you*((e+f)/sum)
return round(gini_index,4

基尼指数是一种衡量样本集合纯度的指标,它表示随机选取一个样本被错误分类的概率。指数越小,表示集合纯度越高,分类效果越好。本文由作者WangB分享。
最低0.47元/天 解锁文章
1346

被折叠的 条评论
为什么被折叠?



