百面机器学习之决策树

最新推荐文章于 2022-05-17 19:26:49 发布

Francis_s

最新推荐文章于 2022-05-17 19:26:49 发布

阅读量623

点赞数

分类专栏：百面机器学习文章标签：机器学习深度学习人工智能决策树

本文链接：https://blog.csdn.net/francis_s/article/details/121568415

版权

百面机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文详细介绍了决策树算法中的ID3、C4.5和CART的区别。ID3倾向于选择取值较多的特征，而C4.5通过引入惩罚参数修正这一倾向。C4.5和CART能处理连续变量，其中CART既能做分类也能做回归。C4.5和CART对缺失值有特定处理策略，CART构建的是二叉树，允许特征重复使用。此外，CART的剪枝方式与ID3和C4.5不同。

摘要由CSDN通过智能技术生成

决策树这一章节已经写过类似的了：具体的特征选择算法可以看以前的文章：

《统计学习方法》决策树及剪枝，回归树分类树

里面都详细地介绍了ID3，C4.5，还有GINI系数三种特征选择方法了

除此之外，书上还提高了他们之间的对比，这里可以着重看一下：

1. ID3 和C4.5 的提升点在哪里

这里其实上面提到的文章也说了，但是这里再说一次：

ID3会优先选择那些特征的取值较多的特征，根据此特征划分更容易得到纯度更高的子集，因此划分之后的熵更低，由于划分前的熵是一定的，因此信息增益更大，因此信息增益比较偏向取值较多的特征。自己的话理解就是，因为我这个特征的取值可以非常多，所以可以非常好地过拟合地适应训练集的数据，所以我们可以更容易得到纯度更高的子集，从而使得信息增益比更加高。

ID3的规则下，信息增益越大，代表这个特征越管用，我们应该选

所以 C4.5就会在在ID3的基础上（信息增益的基础上）乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。用来遏制ID3因为取值多而结果大的情况

再换句话说就是现在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中再选择信息增益比最高的特征。

2. ID3 只能处理离散变量，C4.5和CART可以处理连续变量

其实ID3和C4.5处理连续变量本质上都是在连续的变量里面，找到切分点，把连续的属性转化成布尔类型，从而将连续醒变量转换多个取值区间的离散型变量（如果有N条样本，那么我们有N-1种离散化的方法：<=vj的分到左子树，>vj的分到右子树。计算这N-1种情况下最大的信息增益率。）另外，对于连续属性先进行排序（升序），只有在决策属性（即分类发生了变化）发生改变的地方才需要切开，这可以显著减少运算量

C4.5对连续属性的处理：（和CART一样是二叉分裂）