决策树挑好西瓜

最新推荐文章于 2022-01-21 01:11:03 发布

AI_yu3

最新推荐文章于 2022-01-21 01:11:03 发布

阅读量139

点赞数 1

文章标签：决策树 python 算法

本文链接：https://blog.csdn.net/AI_yu3/article/details/121184546

版权

本文深入探讨了决策树算法，重点介绍了ID3和CART的实现。ID3算法通过计算信息增益来选择最优划分属性，而CART算法则通过连续或非连续变量进行空间划分。文章通过实例讲解了这两个算法的工作原理，并提供了代码实现和总结。

摘要由CSDN通过智能技术生成

一、ID3算法

1.引包

import numpy as np
import pandas as pd
import sklearn.tree as st
import math
import matplotlib
import os
import matplotlib.pyplot as plt

2.读取数据

data = pd.read_csv('C:/西瓜数据集.csv',header=None)
data

在这里插入图片描述

3.代码编写

熵

def calcEntropy(dataSet):
    mD = len(dataSet)
    dataLabelList = [x[-1] for x in dataSet]
    dataLabelSet = set(dataLabelList)
    ent = 0
    for label in dataLabelSet:
        mDv = dataLabelList.count(label)
        prop = float(mDv) / mD
        ent = ent - prop * np.math.log(prop, 2)

    return ent

拆分数据集

def splitDataSet(dataSet, index, feature):
    splitedDataSet = []
    mD = len(dataSet)
    for data in dataSet:
        if(data[index] == feature):
            sliceTmp = data[:index]
            sliceTmp.extend(data[index + 1:])
            splitedDataSet.append(sliceTmp)
    return splitedDataSet

最优特征

def chooseBestFeature(dataSet):
    entD = calcEntropy(dataSet)
    mD = len(dataSet)
    featureNumber = len(dataSet[0]) - 1
    maxGain = -100
    maxIndex = -1
    for i in range(featureNumber):
        entDCopy = entD
        featureI = [x[i] for x in dataSet]
        featureSet = set(featureI)
        for feature in featureSet:
            splitedDataSet = splitDataSet(dataSet, i, feature)  # 拆分数据集
            mDv = len(splitedDataSet)
            entDCopy = entDCopy - float(mDv) / mD * calcEntropy(splitedDataSet)
        if(maxIndex == -1):
            maxGain = entDCopy
            maxIndex = i
        elif(maxGain < entDCopy):
            maxGain = entDCopy
            maxIndex = i

    return maxIndex

寻找最多为标签

def mainLabel(labelList):
    labelRec = labelList

最低0.47元/天解锁文章

AI_yu3

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树挑好西瓜

一、ID3算法1.引包import numpy as npimport pandas as pdimport sklearn.tree as stimport mathimport matplotlibimport osimport matplotlib.pyplot as plt2.读取数据data = pd.read_csv('C:/西瓜数据集.csv',header=None)data3.代码编写熵def calcEntropy(dataSet): mD =
复制链接

扫一扫