机器学习1109：决策树算法

炫个无敌大菠萝

于 2023-11-09 17:29:08 发布

阅读量367

点赞数

文章标签：机器学习决策树人工智能

本文链接：https://blog.csdn.net/qq_63908157/article/details/134311022

版权

西瓜书P93页习题四

试编程实现基于信息熵/基尼指数进行划分选择的决策树算法

并为表4.3中数据生成一颗决策树

1.将数据写入csv文件中

保存至D:\桌面\研0\西瓜书\第四章习题\西瓜数据集3.0.csv文件中

数据：
编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜
1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是
2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是
3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是
4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是
5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.556,0.215,是
6,青绿,稍蜷,浊响,清晰,稍凹,软粘,0.403,0.237,是
7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,0.481,0.149,是
8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,0.437,0.211,是
9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,0.666,0.091,否
10,青绿,硬挺,清脆,清晰,平坦,软粘,0.243,0.267,否
11,浅白,硬挺,清脆,模糊,平坦,硬滑,0.245,0.057,否
12,浅白,蜷缩,浊响,模糊,平坦,软粘,0.343,0.099,否
13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,0.639,0.161,否
14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,0.657,0.198,否
15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,0.36,0.37,否
16,浅白,蜷缩,浊响,模糊,平坦,硬滑,0.593,0.042,否
17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,0.719,0.103,否

2、编程思路

使用sklearn构造决策树

python中的sklearn库中含有DecisionTree的构造方法，此处使用sklearn库生成决策树，所得到的是二叉树，也能做到相对正确的分类。今后有时间尝试详细实现决策树构建的每一步。
在使用sklearn构造决策树的过程中发现，该方法只针对数据部分为数值的数据集进行构造，像“色泽：青绿”这种字符串类型是无法进行处理的，因此，我们需要解决的问题是如何将这些字符串转换成数字来标识，该思路简言之就是对字符串进行编码处理。

数据编码方式

在西瓜数据集中发现大部分属性数据都是离散数据，需要对其进行数据预处理。考虑到数据中离散型数据太多，不使用one-hot编码，因为会导致生成特征的数量太多且过于稀疏；

为了降低编码这一过程对决策树的产生所造成的影响最低，同时也要考虑最终输出结果能够清晰明了，我选定使用DictVectorizer方法来对数据中的离散型内容进行编码，同时使用preprocessing.LabelBinarizer对标记进行编码。

原因如下：①使用preprocessing.LabelBinarizer对标记进行编码很容易理解，就是将标签进行二值化，即’1’代表’是‘，’0‘代表‘否’。从而将字符转换为0-1表示。②DictVectorizer的处理对象是符号化(非数字化)的但是具有一定结构的特征数据，如字典等，将符号转成数字0/1表示。

3、编程实现

（1）导包

import csv
from sklearn.feature_extraction import DictVectorizer
from sklearn import preprocessing
from sklearn import tree
import graphviz
import os     
os.environ["PATH"] += os.pathsep + 'D:\software_insatll\graphviz\bin'

（2）函数is_number()：判断数据中字符型数字是否是float类型

def is_number(n):
    is_number = True
    try:
        num = float(n)
        is_number = num == num
    except ValueError:
        # 不是float类型则返回false
        is_number = False
    return is_number

（3）函数loadData(filename)：读取数据

def loadData(filename):
    data = open(filename,'r',encoding='utf-8')
    reader = csv.reader(data)
    headers = next(reader) # 通过调用next方法来一行一行的读取数据

    featureList =[] # 添加属性数据
    labelList = [] # 添加结果
    
    for row in reader:# 每行每行的来
        labelList.append(row[len(row)-1])
        rowDict = {}
        for i in range(1,len(row)-1):
            # 跳过序号和结果
            # 对于每个属性数据，
            if is_number(row[i]) == True:
                rowDict[headers[i]] = float(row[i])
            else:
                rowDict[headers[i]] = row[i]
        featureList.append(rowDict)
        
    return featureList,labelList

（4）函数createDTree()：构建决策树（此处使用信息熵为划分准则）

在里面实现离散值处理

def createDTree(featureList,labelList):
    # 对离散值进行编码处理
    vec = DictVectorizer()
    dummyX = vec.fit_transform(featureList).toarray()

    lb = preprocessing.LabelBinarizer()
    dummyY = lb.fit_transform(labelList)

    
    clf = tree.DecisionTreeClassifier(criterion='entropy')
    clf = clf.fit(dummyX,dummyY)
#     print("clf: ",str(clf))
#     print(vec.get_feature_names_out())
#     print(dummyX)
#     print(dummyY)
    target_name=['不是好瓜','是好瓜']

    dot_data = tree.export_graphviz(clf,
                                feature_names=vec.get_feature_names_out(),
                                class_names=target_name,
                                out_file=None,
                                filled=True,
                                rounded=True)
    graph = graphviz.Source(dot_data)
    graph

（5）查看输出结果（信息熵）

（6）函数createDTree()：构建决策树（此处使用基尼指数为划分准则）

def createDTree(featureList,labelList):
    # 对离散值进行编码处理
    vec = DictVectorizer()
    dummyX = vec.fit_transform(featureList).toarray()

    lb = preprocessing.LabelBinarizer()
    dummyY = lb.fit_transform(labelList)

    
    clf = tree.DecisionTreeClassifier(criterion='gini')
    clf = clf.fit(dummyX,dummyY)
#     print("clf: ",str(clf))
#     print(vec.get_feature_names_out())
#     print(dummyX)
#     print(dummyY)
    target_name=['不是好瓜','是好瓜']

    dot_data = tree.export_graphviz(clf,
                                feature_names=vec.get_feature_names_out(),
                                class_names=target_name,
                                out_file=None,
                                filled=True,
                                rounded=True)
    graph = graphviz.Source(dot_data)
    graph

（7）查看输出结果（基尼指数）

炫个无敌大菠萝

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
机器学习1109：决策树算法

西瓜书P93页习题四试编程实现基于信息熵/基尼指数进行划分选择的决策树算法并为表4.3中数据生成一颗决策树保存至D:\桌面\研0\西瓜书\第四章习题\西瓜数据集3.0.csv文件中数据：编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是。
复制链接

扫一扫