数据挖掘学习笔记：分类之决策树分类 -- ID3算法 / C4.5算法 / CART算法

最新推荐文章于 2023-12-28 22:02:44 发布

code_carrot

最新推荐文章于 2023-12-28 22:02:44 发布

阅读量877

点赞数 1

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/qq_37209590/article/details/105547459

版权

数据挖掘专栏收录该内容

24 篇文章 13 订阅

订阅专栏

ID3：使用信息增益作为属性选择度量

理论

ID3算法递归地构建决策树，从根节点开始，对所有特征计算信息增益，选择信息增益最大的特征作为节点的特征，由该特征的不同取值建立子节点；再对子节点递归地调用以上方法构建决策树；知道所有特征的信息增益均很小或者没有特征可以选择为止。最后得到一个决策树。

在算法中（C4.5也是），有三种情形导致递归返回：

（1）当前节点包含的样本全属于同一类别，无需划分。
（2）当前属性集为空，或是所有样本在所有属性上取值相同，无法划分。（此时将所含样本最多的类别设置为该叶子节点类别）
（3）当前节点包含的样本集合为空，不能划分。（将其父节点中样本最多的类别设置为该叶子节点的类别）

例子

优缺点

ID3优点是理论清晰、方法简单、学习能力较强，但也存在一些缺点：
（1）只能处理分类属性的数据，不能处理连续的数据；
（2）划分过程会由于子集规模过小而造成统计特征不充分而停止；
（3）ID3算法在选择根节点和各内部节点中的分支属性时，采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息。

C4.5算法

采用信息增益比作为评价标准

CART算法

剪枝处理

当训练数据量大、特征数量较多时构建的决策树可能很庞大，这样的决策树用来分类是否好？答案是否定的。决策树是依据训练集进行构建的，当决策树过于庞大时，可能对训练集依赖过多，也就是对训练数据过度拟合。从训练数据集上看，拟合效果很好，但对于测试数据集或者新的实例来说，并不一定能够准确预测出其结果。如果过早的停止对节点的进一步分裂，可能会造成拟合不足。因此，对于决策树的构建还需要最后一步----即决策树的修剪。