ID3，ID4.5，CART树_id3和id4.5什么区别python-CSDN博客

本文链接：https://blog.csdn.net/scutAlias/article/details/68942068

对比总结：

一、 C&R 树

classification and regression trees 是一种基于树的分类和预测方法，模型使用简单，易于理解（规则解释起来更简明易），该方法通过在每个步骤最大限度降低不纯洁度，使用递归分区来将训练记录分割为组。然后，可根据使用的建模方法在每个分割处自动选择最合适的预测变量。如果节点中100% 的观测值都属于目标字段的一个特定类别，则该节点将被认定为“纯洁”。目标和预测变量字段可以是范围字段，也可以是分类字段；所有分割均为二元分割（即分割为两组）。分割标准用的是基尼系数(Gini Index)。

CART即分类回归树。如果目标变量是离散变量，则是classfication Tree，如果目标是连续变量，则是Regression Tree。

CART树是二叉树。 二叉树有什么优点？不像多叉树那样形成过多的数据碎片

二、C4.5离散化的过程

C4．5算法是构造决策树分类器的一种算法。这种算法利用比较各个描述性属性的信息增益值(Information Gain)的大小，来选择Gain值最大的属性进行分类。如果存在连续型的描述性属性，那么首先要把这些连续型属性的值分成不同的区间，即“离散化”。把连续型属性值“离散化”的方法是：
1．寻找该连续型属性的最小值，并把它赋值给MIN，寻找该连续型属性的最大值，并把它赋值给MAX；

2．设置区间【MIN,MAX】中的N个等分断点Ai，它们分别是Ai=MIN+（MAX-MIN）/N*i，其中，i=1,2，……，N；

3．分别计算把【MIN，Ai】和（Ai，MAX】（i=1,2，……，N）作为区间值时的Gain值，并进行比较；

4．选取Gain值最大的Ak作为该连续型属性的断点，把属性值设置为【MIN，Ak】和（Ak，MAX】两个区间值。

CA．5算法使用信息增益的概念来构造决策树，其中每个分类的决定都与所

择的目标分类有关不确定性的最佳评估方法是平均信息量，即信息嫡(Entropy)：

C4.5 决策树

优点：执行效率和内存使用改进、适用大数据集
      1)    面对数据遗漏和输入字段很多的问题时非常稳健；
      2)    通常不需要很长的训练次数进行估计；工作原理是基于产生最大信息增益的字段逐级分割样本
      3)    比一些其他类型的模型易于理解，模型推出的规则有非常直观的解释；
      4)    允许进行多次多于两个子组的分割。目标字段必须为分类字段

CART与ID3的区别

通过之前的研究发现，CART与ID3算法都是基于信息论的决策树算法，CART算法是一种通过计算Diversity(整体)-diversity(左节点)-diversity(右节点)的值取最佳分割的算法。ID3和CART算法的区别主要集中在树的生成和树的修剪方面，但是ID3算法只能处理离散型的描述性属性。C4．5算法是ID3算法的后续算法，它能够处理连续型数据。

CART中用于选择变量的不纯性度量是Gini指数；

如果目标变量是标称的，并且是具有两个以上的类别，则CART可能考虑将目标类别合并成两个超类别（双化）；
如果目标变量是连续的，则CART算法找出一组基于树的回归方程来预测目标变量。