西瓜书习题4.4 编程实现基尼指数决策树

最新推荐文章于 2023-07-29 21:53:08 发布

VIP文章 qdbszsj

最新推荐文章于 2023-07-29 21:53:08 发布

阅读量4.2k

点赞数 6

分类专栏： ML

本文链接：https://blog.csdn.net/qdbszsj/article/details/79096767

版权

数据及代码地址：https://github.com/qdbszsj/decisionTreeGini

这里的代码在信息熵决策树的基础上稍加修改就可以，之前是根据熵增的最大值来确定用哪个属性划分，现在是根据基尼指数（表现数据集D的纯度）的最小值来建树。

这里网上的很多人说建出来的树长得和书上的不一样！一样TM就怪了，书上P81页的树那是根据entropy建的，我们建出来的树是根据Gini index的，而且经常会遇到有属性值的Gini值相同，比如根节点，脐部和色泽，这俩属性的Gini指数都是0.875，所以用谁都行，那么这里就要加入随机因素，所以我这份代码跑出来的结果都是千变万化的，根据理论来讲，这个树有很多种解法。

具体的代码过程解释，请看我的上一篇博客，习题4.3，这里改动不大。

然后有一点要注意的，一个bug我调了好久。我传入的参数A，应该是一个list，但是我用np.ones初始化的，然后想用newA=A[ : ]深copy的时候，会出问题，numpy是不支持B=A[ : ]这样子深拷贝的，这样子copy出来的是浅拷贝，把B改了，A也跟着改了，这个问题出现在了我的建树的递归函数里。解决这个问题，要么一开始你就list(A)一下强制转换，后面就可以用B=A[ : ]深拷贝了，或者你写的时候就用numpy，然后import copy，用B=copy.deepcopy(A)来深拷贝。

程序最下面，我用建好的树，去预测了一下7个测试用例，输出了混淆矩阵，每次的运行，树都建的不一样，混淆矩阵的结果也不一样，出入很大，意外的一次运行，我发现了一个很棒的结果，正确率100%。在实际操作中，我们也是应该挑选这种在测试集中表现好的模型，来作为我们的最终模型。

剪枝，这里没有做，后面有时间再写。

#make the data watermelon_2 from 3
# import numpy as np
# import pandas as pd
# dataset = pd.read_csv('/home/parker/watermelonData/watermelon_3.csv', delimiter=",")
# del dataset['密度']
# del dataset['含糖率']
# dataset.to_csv('/home/parker/watermelonData/watermelon_2.csv',header=True,index=False)

# import numpy as np
# import pandas as pd
# dataset = pd.read_csv('/home/parker/watermelonData/watermelon_2.csv', delimiter=",")
# #print(dataset)
# trainID=[0,1,2,5,6,9,13,14,15,16]
# testID=[3,4,7,8,10,11,12]
# trainData=dataset.iloc[trainID,range(8)]
# testData=dataset.iloc[testID,range(8)]
# print(trainData)
# print(testData)
# trainData.to_csv('/home/parker/watermelonData/watermelon_2train.csv', header=True, index=False)
# testData.to_csv('/home/parker/watermelonData/watermelon_2test.csv', header=True, index=False)

import numpy as np
import pandas as pd
dataset = pd.read_csv('/home/parker/watermelonData/watermelon_2train.csv', delimiter=",")
testData = pd.read_csv('/home/parker/watermelonData/watermelon_2test.csv', delimiter=",")
print(dataset)

Attributes=dataset.columns
m,n=np.shape(dataset)
# print(m,n)

dataset=np.matrix(dataset)
attributeSet=[]
for i in range(n):
    curSet=set()
    for j in range(m):
        curSet.add(dataset[j,i])
    attributeSet.append(curSet)

DD=np.arange(0,m,1)
AA=

最低0.47元/天解锁文章

qdbszsj

关注

6
点赞
踩
27

收藏

觉得还不错? 一键收藏
2
评论
西瓜书习题4.4 编程实现基尼指数决策树

数据及代码地址：https://github.com/qdbszsj/decisionTreeGini这里的代码在信息熵决策树的基础上稍加修改就可以，之前是根据熵增的最大值来确定用哪个属性划分，现在是根据基尼指数（表现数据集D的纯度）的最小值来建树。这里网上的很多人说建出来的树长得和书上的不一样！一样TM就怪了，书上P81页的树那是根据entropy建的，我们建出来的树是根据Gini index的
复制链接

扫一扫