计算类算法使用数据数据一步一步计算,最能形象化理解算法,也容易掌握。如果不懂基尼指数定义,可以百度。
下面以常用的贷款申请样本数据表为样本集,通过数学计算来讲解基尼指数的计算方法和过程。
1.样本数据集合D
样本集简介:
样本集有15个example样本
每个样本有4个特征(年龄age,是否工作work,是否有房子house,信用情况credit),1个分类结果refuse或者agree
age取值集合 ={youth, mid, elder}
work取值集合 ={no, yes}
house取值集合 = {no, yes}
credit取值集合 = {common, good, excellent}
class取值集合 = 申请贷款结果集合 = {refuse, agree}
ID | age | work | house | credit | class |
1 | youth | no | no | common | refuse |
2 | youth | no | no | good | refuse |
3 | youth |
yes | no | good | agree |
4 |