ID3，C4.5，CART 决策树算法学习

最新推荐文章于 2023-10-09 21:47:30 发布

wheatJH

最新推荐文章于 2023-10-09 21:47:30 发布

阅读量265

点赞数

分类专栏： Data Mining 文章标签： Data Mining

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37799617/article/details/79561456

版权

Data Mining 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

ID3算法

使用信息增益作为属性的选择标准，适用于离散的描述属性，且偏好于可取数目较多的属性。

信息熵计算

其中，pk代表第k类样本在D集合中所占的比重。信息熵越小，表示集合D的纯度越大。

信息增益计算

其中为集合D中某个属性的子集。根据所计算的信息增益，选取信息增益大的属性。

C4.5算法

在ID3算法的基础上，使用信息增益率作为属性的选择标准。该算法既能处理离散的描述属性，也能处理连续的描述属性，并且偏好于可取数目较少的属性。

信息增益率Gainratio计算

根据所计算的信息增益率，选取信息增益率高的属性。

CART算法

通过基尼系数划分属性，可用于回归树或分类树。当终结点为连续变量时，该树为回归树；当终结点为分类变量时，该树为分类树。

基尼系数Giniindex计算

根据所计算的基尼系数，选取基尼系数最小的属性。

决策树算法的优缺点

优点

只需很少的数据准备；
使用该树预测数据的成本为训练树的数据点的对数；
能够处理数字和分类数据，其他分类技术通常专门分析一种类型变量的数据；
能够处理多输出问题；
使用白盒模型，容易通过布尔逻辑对决策树的结果进行解释；
模型具有可靠性，可使用统计测试来验证模型；
即使假设受到数据生成的真实模型的干扰，也能很好地执行。

缺点

容易过度拟合，可建立过于复杂的树，但不能很好地概括数据。可通过设置叶节点所需的最小样本树或树的最大深度避免；
不稳定性，数据中的小变化，将导致生成不同的树；
基于启发式算法，不能保证返回全局最优，可通过训练多棵树缓解，其中的特征和样本随机替换采样；
若某一类占主导地位，则会建成偏向性树，需要先平衡数据集。

参考文献

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ID3，C4.5，CART 决策树算法学习

ID3算法使用信息增益作为属性的选择标准，适用于离散的描述属性，且偏好于可取数目较多的属性。信息熵计算其中，pk代表第k类样本在D集合中所占的比重。信息熵越小，表示集合D的纯度越大。信息增益计算其中为集合D中某个属性的子集。根据所计算的信息增益，选取信息增益大的属性。C4.5算法在ID3算法的基础上，使用信息增益率作为属性的选择标准。该算法既能处理离散的描述属性，也能处理连续的描述属性，并且偏好于...
复制链接

扫一扫

专栏目录

wheatJH CSDN认证博客专家 CSDN认证企业博客

码龄7年

5: 原创

136万+: 周排名

217万+: 总排名

1万+: 访问

: 等级

153: 积分

2: 粉丝

3: 获赞

0: 评论

26: 收藏

私信

关注

分类专栏

Python for Data Analysis 2篇
Data Mining 2篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。