《机器学习实战》使用ID3算法构造决策树

最新推荐文章于 2024-04-29 09:01:56 发布

Witness2020

最新推荐文章于 2024-04-29 09:01:56 发布

阅读量3.5k

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/slience_646898/article/details/83150818

版权

决策树是一个基本回归和分类的算法

决策树的优点：

1.易于理解和解释，并且可以可视化。
2.几乎不需要数据预处理。决策树还不支持缺失值。
3.可以同时处理数值变量和分类变量。其他方法大都适用于分析一种变量的集合。
4.可以处理多值输出变量问题。
决策树的缺点：

决策树学习可能创建一个过于复杂的树，也就是过拟合(overfitting)但是我们可以通过修剪决策树，合并相邻的无法产生大量信息增益的叶节点来消除过度匹配的问题。

构建决策树通常进行三个步骤：特征的选择，生成决策树，执行决策树并修剪。

特征选择：

在此使用基本的ID3算法来构造决策树（此外还有C4.5和CART），划分数据集的原则就是将标签无序的数据分得更加有序。

我们将数据集在划分前后发生的变化称为信息增益，那么可以计算在每个特征下划分数据集的信息增益，信息增益最大的那个特征就是当前最佳的划分特征。从信息论中公式得知要计算信息增益首先要计算数据集的经验熵（又称香农熵）：

假设我们有一个数据集，每个数据都有四个特征，每个特征都有其相应特征值的集合；最后有一个关于该数据的分类结果，通常将其称为标签。对此数据集构建决策树，实现利用该决策树对未知标签的数据进行预测。

（年龄0，1，2代表青年中年老年，信贷情况0，1，2代表一般良好优秀）
年龄  有工作 有房产 信贷情况  是否贷款

0     0     0     0         不贷
0     0     0     1         不贷
0     1     0     1         贷款
0     1     1     0         贷款
0     0     0     0         不贷
1     0     0     0         不贷
1     0     0     1         不贷
1     1     1     1         贷款
1     0     1     2         贷款
1     0     1     2         贷款
2     0     1     2         贷款
2     0     1     1         贷款
2     1     0     1         贷款
2     1     0     2         贷款
2     0     0     0         不贷

对其进行经验熵和信息增益的计算选择当前最佳的分类特征：

import numpy as np
import math
def calcuent(datase

最低0.47元/天解锁文章

Witness2020

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
《机器学习实战》使用ID3算法构造决策树

决策树是一个基本回归和分类的算法决策树的优点：1.易于理解和解释，并且可以可视化。2.几乎不需要数据预处理。决策树还不支持缺失值。3.可以同时处理数值变量和分类变量。其他方法大都适用于分析一种变量的集合。4.可以处理多值输出变量问题。决策树的缺点：决策树学习可能创建一个过于复杂的树，也就是过拟合(overfitting)但是我们可以通过修剪决策树，合并相邻的无法产生大量信息增益...
复制链接

扫一扫