根据基尼指数生成决策树代码

最新推荐文章于 2023-11-04 16:20:04 发布

lishangyin88

最新推荐文章于 2023-11-04 16:20:04 发布

阅读量2.9k

点赞数 1

分类专栏： python 学习笔记

本文链接：https://blog.csdn.net/lishangyin88/article/details/82490790

版权

本文介绍了如何根据基尼指数生成决策树，重点关注数据类型判断、分类型数据处理以及决策树的构建过程。在处理分类型数据时，由于基尼指数生成的是二叉树，对于超过3个类别的数据需要特殊处理。代码示例适用于特征取值最多为3类的情况。同时，文章提到了使用ETE包绘制决策树的挑战，包括转换为newick格式的过程。

摘要由CSDN通过智能技术生成

根据基尼指数生成决策树时，要注意几个问题：

一、需要判断数据是分类型的还是数值型的，对分类型的拆分子集需判断值是否相等，而对数值型的则需要先计算出区分的值，比较数据与区分值的大小进行拆分。

二、如果是分类型还要注意一个问题，因为基尼指数生成的都是二叉树。所以当类别大于3时，情况会比较多，比如特征的取值有4个的话，需要分成6类。但本例子，是按照特征取值最多为3类的情况来写的。如果类别多于3个，还需要改写该部分的程序。

三、由于编程属于业余拓展爱好，代码可能不够精炼，仅供参考，请包涵。

数据集data(和上一篇CART决策树计算方法中的相一致)：

	是否有房	婚姻状况	年收入	是否拖欠贷款
序号				
1	是	单身	12.5	否
2	否	已婚	10.0	否
3	否	单身	7.0	否
4	是	已婚	12.0	否
5	否	离异	9.5	是
6	否	已婚	6.0	否
7	是	离异	22.0	否
8	否	单身	8.5	是
9	否	已婚	7.5	否
10	否	单身	9.0	是

def feature_select(data):
    total_Gini={}
    feature_num=len(data.keys())-1
    for m in range(feature_num):
        s={}
        if data.iloc[:,m].dtype==object: 
            crosstable=pd.crosstab(data.iloc[:,m],data.iloc[:,-1],margins=True)
            n=len(data.iloc[:,m].unique())#变量的个数
            if n==2:
                first_value_proportion=crosstable.iloc[:,0]/crosstable.All
                second_value_proportion=crosstable.iloc[:,1]/crosstable.All
                sample_counts_proportion=crosstable.iloc[:,2]/crosstable.iloc[2,2]
                first_Gini_index=1-np.square(first_value_proportion[0])-np.square(second_value_proportion[0])
                second_Gini_index=1-np.square(first_value_proportion[1])-np.square(second_value_proportion[1])
                s[data.iloc[:,m].unique()[1]]=sample_counts_proportion[0]*first_Gini_index+sample_counts_proportion[1]*second_Gini_index
                total_Gini[data.keys()[m]]=sorted(s.items(),key=lambda x:x[1])[0]
            elif n>2:
                for x in range(n):
                    first_value_crosstab=crosstable.iloc[x

最低0.47元/天解锁文章

lishangyin88

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
根据基尼指数生成决策树代码

根据基尼指数生成决策树时，要注意几个问题：一、需要判断数据是分类型的还是数值型的，对分类型的拆分子集需判断值是否相等，而对数值型的则需要先计算出区分的值，比较数据与区分值的大小进行拆分。二、如果是分类型还要注意一个问题，因为基尼指数生成的都是二叉树。所以当类别大于3时，情况会比较多，比如特征的取值有4个的话，需要分成6类。但本例子，是按照特征取值最多为3类的情况来写的。如果类别多于3个，还...
复制链接

扫一扫

专栏目录