决策树（ID3,C4.5,CART）

qq_45812502

已于 2022-10-05 09:58:26 修改

阅读量638

点赞数

分类专栏：机器学习基础与算法文章标签：决策树机器学习算法

于 2022-10-04 22:18:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45812502/article/details/127164359

版权

机器学习基础与算法专栏收录该内容

5 篇文章

订阅专栏

决策树简介

决策树算法是一个可解释性极高的算法，它会把更加重要的指标放在前面来进行判断。某些领域十分看重可解释性，例如银行，风控领域等。
在这里插入图片描述

决策树训练的对象

对于多元线性回归、神经网络、SVM这种训练的对象都是权重w和b。
对于决策树而言，首先训练的对象就是所有特征的排序（越重要越靠前）；第二个就是确定每次要分割特征所对应的最优分割点（ID3不需要）。

选取特征和分割标准

对比每个特征选取前后所对应子集信息熵的下降程度（也就是信息增益）。然后每次都选择信息增益最大的那个。例如下图的例子，首先是计算选取之前总的信息熵，然后假设选择了outlook特征作为第一个划分特征。然后特征有sunny,rain,overcast三种离散取值。然后各个取值下都有对应的标签都有样本子集，我们就是要看此时对应标签类别分布情况（看划分的纯度高不高）。
ID3和C4.5是一个模型，唯一的区别就是ID3用的是信息增益，C4.5用的是信息增益率（=信息增益/该特征的取值个数），考虑了特征的取值数对于信息的影响
在这里插入图片描述
在各自子集计算的信息熵是无法直接原来总的信息熵进行比较，因此需要把该标签下各种取值的信息熵进行加权求和后再进行比较。

可以看到temperature的信息增益要小于outlook，因此outlook重要性更低。

CART树

ID3和C4.5最大的缺陷就是遇到连续性数据时，决策树就不能进行分裂了（ID3是特征的离散值进行划分的，当为连续的时候就没办法穷举了）。

CART使用基尼系数而不使用信息熵的原因

因为cart树是一颗二叉树，在二分类的情况下基尼系数值近似等于信息熵，而基尼系数计算会比信息熵更快一些（平方运算比log快）
在这里插入图片描述
对于连续特征值的划分点就是暴力穷举，列出所有的取值排序，然后两个数值之间的均值来作为划分点（可以划出大于和小于等于两个区域），然后比较所有的划分点的信息增益，选取最大的那个作为划分点。
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。