周志华《机器学习》西瓜书小白Python学习笔记（四） ———— 第四章决策树 python代码预剪枝

最新推荐文章于 2024-07-27 23:44:59 发布

River_J777

最新推荐文章于 2024-07-27 23:44:59 发布

阅读量1.3k

点赞数 2

分类专栏：机器学习文章标签：决策树剪枝 python 机器学习算法

本文链接：https://blog.csdn.net/River_J777/article/details/105917613

版权

周志华《机器学习》西瓜书小白Python学习笔记（三） ———— 第四章决策树 python代码预剪枝

基于西瓜数据集2.0（提取码：esa8）
，选择信息增益作为属性选择指标，建立决策树。
步骤如下：
输入离散变量的取值集合与标签，并读取数据.

D_keys = {
   
    '色泽': ['青绿', '乌黑', '浅白'],
    '根蒂': ['蜷缩', '硬挺', '稍蜷'],
    '敲声': ['清脆', '沉闷', '浊响'],
    '纹理': ['稍糊', '模糊', '清晰'],
    '脐部': ['凹陷', '稍凹', '平坦'],
    '触感': ['软粘', '硬滑'],
}
keys = ['是', '否']

根据留出法将数据集分为相斥的测试集与训练集，比例为3:7，为了保证均匀取出好瓜和坏瓜，采用分层抽样，即分别在好瓜和坏瓜的集合中随机取样。

#划分训练集&测试集，留出法，比例为7：3，分层抽样
def traintest(dataSet):
    dataSet0 = dataSet[dataSet['好瓜'] == '是']
    dataSet1 = dataSet[dataSet['好瓜'] == '否']
    list0 = dataSet0.sample(frac=0.7)
    list0 = list0.append(dataSet1.sample(frac=0.7))
    rowlist = []
    for indexs in list0.index:
        rowlist.append(indexs)
    list1 = dataSet.drop(rowlist, axis=0)
    return list0,list1

编写在生成树时会用到的子函数：

# 叶节点选择其类别为D中样本最多的类
def choose_largest_example(D):
    count = D['好瓜'].value_counts()
    return '是' if count['是'] > count['否'] else '否'

# 测试决策树的准确率
def test_Tree(Tree, data_test):
    accuracy = 0
    for index, row in data_test.iterrows():
        result = dfs_Tree(Tree, row)
        if result == row['好瓜']:
            # print(row.values, Tree)
            accuracy += 1


    return accuracy / data_test.shape[0]

# 判断D中的样本在A上的取值是否相同
def same_value(D, A):
    for key in A:
        if key in D_keys and len(D[key].value_counts()