ML：决策树

最新推荐文章于 2022-09-30 01:29:07 发布

Raymone_

最新推荐文章于 2022-09-30 01:29:07 发布

阅读量486

点赞数

分类专栏：机器学习文章标签：决策树机器学习分类

本文链接：https://blog.csdn.net/u012470887/article/details/102798541

版权

决策树

1. 决策树的构造
2. 使用 Matplotlib 注解绘制树形图
3. 测试和存储分类器
- 3.1 测试算法：使用决策树执行分类
- 3.2 使用算法：决策树的存储
4. 实例：使用决策树预测隐形眼镜类型

1. 决策树的构造

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据
缺点：可能会产生过度匹配问题
适用数据类型：数值型（离散化）和标称型
本文使用 ID3 算法（信息增益）划分数据集

1.1 信息增益

信息(information)：如果待分类的事物可能划分在多个分类之中，则符号 $x_i$ 的信息定义为： $l(x_i) = -log_2p(x_i)$ 其中 $p(x_i)$ 是选择该分类的概率
熵(entropy)：定义为信息的期望值，即 $-\sum_{i=1}^np(x_i)log_2p(x_i)$ 其中 n 是分类的数目

计算给定数据集的香农熵：增加类别数，熵也相应地增加

'''计算给定数据集的香农熵'''
from math import log

def calcShannonEnt(dataSet):
    numEntries = len(dataSet)    # 实例总数
    labelCounts = {
   }    # 初始化类别-次数字典
    for featVec in dataSet:    # 遍历实例，得到每个类别的数量
        currentLabel = featVec[-1]    # 得到当前类别
        if currentLabel not in labelCounts.keys():    # 判断类别是否已存在
            labelCounts[currentLabel] = 0    # 类别不存在，添加到字典中
        labelCounts[currentLabel] += 1    # 该类别的数量+1
    shannonEnt = 0.0    # 初始化香农熵
    for key in labelCounts:    # 遍历所有类别
        prob = float(labelCounts[key]) / numEntries    # 计算类别的概率
        shannonEnt -= prob * log(prob, 2)    # 计算香农熵
    return shannonEnt
    
[IN]: test = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0