机器学习：决策树识别数字

最新推荐文章于 2023-01-12 11:03:21 发布

knmL

最新推荐文章于 2023-01-12 11:03:21 发布

阅读量881

点赞数

分类专栏：机器学习文章标签：决策树 python 机器学习

本文链接：https://blog.csdn.net/qq_38590766/article/details/108862668

版权

本文探讨了机器学习中决策树的应用，详细介绍了其原理，包括熵的概念，以及如何利用熵来划分数据集以构建决策树，最终实现对数字的识别。

摘要由CSDN通过智能技术生成

决策树

原理

计算数据集中的熵，寻找最优方案划分数据集，直到所有数据属于同一分类，并在此过程建决策树

熵

我们用于判断如何划分数据集的依据，是信息的期望值

代码

from math import log
import os

'''
参数：
    data：数据集，包含分类
返回：
    该数据集的熵
'''
def calS(data):
    l = len(data)
    label = {
   }
    for i in data:
        cur = i[-1]
        if cur not in label.keys():
            label[cur] = 0
        label[cur] += 1
    s = 0
    for i in label:
        p = label[i]/l
        s -= p*log(p,2)
    return s


'''
参数：
    data：数据集
    axis：特征id
    value：特征对应的值
返回：
    数据集按照某特征为某值切片后的子数据集
'''
def splitS(data,axis,value):
    ydata = []
    for i in data:
        x = i[:axis]
        x.extend(i[axis+1:])
        if i[axis] == value:
            ydata.append(x)
    return ydata

'''
参数：
    data：数据集
返回：
    特征id
备注：
    通过穷举所有可能，选择熵最小的切片方式
'''
def chooseSplit(data):
    num = len(data[0]) - 1
    id