《机器学习实战》学习（三）——决策树实例

最新推荐文章于 2023-11-10 15:50:45 发布

不系之舟913

最新推荐文章于 2023-11-10 15:50:45 发布

阅读量1.6w

点赞数 7

分类专栏： Python编程机器学习文章标签：决策树机器学习

本文链接：https://blog.csdn.net/lixianjun913/article/details/52506828

版权

本文深入探讨了决策树在处理离散和连续数据时的应用，通过《机器学习》4.3习题实例，分析了决策树算法在连续属性上的处理方式，并给出了代码实现。总结了在构建决策树时的关键步骤和注意事项。

摘要由CSDN通过智能技术生成

实例一《机器学习》书中4.3习题

1、问题描述

试编程实现基于信息熵进行划分选择的决策树算法，并为表4.3中数据生成一棵决策树，表4.3数据如下：

‘色泽’,’根蒂’,’敲声’,’纹理’,’脐部’,’触感’,’密度’,’含糖率’
青绿蜷缩浊响清晰凹陷硬滑 0.697 0.46 是
乌黑蜷缩沉闷清晰凹陷硬滑 0.774 0.376 是
乌黑蜷缩浊响清晰凹陷硬滑 0.634 0.264 是
青绿蜷缩沉闷清晰凹陷硬滑 0.608 0.318 是
浅白蜷缩浊响清晰凹陷硬滑 0.556 0.215 是
青绿稍蜷浊响清晰稍凹软粘 0.403 0.237 是
乌黑稍蜷浊响稍糊稍凹软粘 0.481 0.149 是
乌黑稍蜷浊响清晰稍凹硬滑 0.437 0.211 是
乌黑稍蜷沉闷稍糊稍凹硬滑 0.666 0.091 否
青绿硬挺清脆清晰平坦软粘 0.243 0.267 否
浅白硬挺清脆模糊平坦硬滑 0.245 0.057 否
浅白蜷缩浊响模糊平坦软粘 0.343 0.099 否
青绿稍蜷浊响稍糊凹陷硬滑 0.639 0.161 否
浅白稍蜷沉闷稍糊凹陷硬滑 0.657 0.198 否
乌黑稍蜷浊响清晰稍凹软粘 0.36 0.37 否
浅白蜷缩浊响模糊平坦硬滑 0.593 0.042 否
青绿蜷缩沉闷稍糊稍凹硬滑 0.719 0.103 否

2、问题分析

观测数据可以发现，表中数据存在离散属性数据以及两列’密度’,’含糖率’的两个属性，且这两个属性都是连续数据。因此采用上一章实现的ID3算法（只解决了离散数据）因此需要一些修改。决策树本身是对离散数据的分类决策，那题中存在连续数据，那我们又该如何进行构建决策树呢？我在代码中参考了http://blog.csdn.net/wzmsltw/article/details/51039928这篇对本题解答的问题。不过此代码我在使用过程中任然存在一些问题。困惑我最久的无非是Labels数据在创建树的结构中出现的问题。后来采用深拷贝解决此问题。另外博主可能不是采用的python3.5的版本，有很多运行出错，我稍加修改并加入了个人的一些理解。将代码进行了详细的注释，以便以后自己回顾。
博主在处理连续数据问题时，任然采用了计算增益的方式，将选择对连续数据最好的划分值，从而使得信息增益最大。最后再与全局比较信息增益。获得最优划分。

3、代码实现

# -*- coding: utf-8 -*-
"""
Created on Sat Sep 10 20:09:11 2016

@file trees.py
@brief 决策树算法实现 实现西瓜案例 改进
在上一个tree.py版本中无法对连续属性进行处理，西瓜案例中的密度与含糖度两个属性是连续数据，那该如何处理呢
@version V1.1
"""

"""
@brief 计算给定数据集的信息熵
@param dataSet 数据集
@return 香农熵
"""

import operator  
import copy
from math import log
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)#求取数据集的行数
    labelCounts = {}
    for featVec in dataSet:#读取数据集中的一行数据
        currentLabel = featVec[-1] #取featVec中最后一列的值
        #以一行数据中的最后一列值为键值进行统计
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries#将每一类求取概率
        shannonEnt -= prob * log(prob,2)#求取数据集的香农熵
    return shannonEnt

"""
@brief 划分数据集 按照给定的特征划分数据集
@param[in] dataSet 待划分的数据集
@param[in] axis  划分数据集的特征
@param[in] value 需要返回的特征的值
@return retDataSet 返回划分后的数据集
"""
def splitDataSet(dataSet, axis, value):
    retDataSet = []#返回的划分后的数据集
    for featVec in dataSet:
        #抽取符合划分特征的值
        if featVec[axis] == value:
            #如何符合此特征值 则存储，存储划分后的数据集时 不需要存储选为划分的特征
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+