决策树连续变量_决策树 ID3 Gini详细分析-CSDN博客

本文链接：https://blog.csdn.net/weixin_39993454/article/details/112734821

基本上是copy

安夏木：数据分析方法—决策树分类算法及实现（2）zhuanlan.zhihu.com

忆臻：深入浅出理解决策树算法（二）-ID3算法与C4.5算法zhuanlan.zhihu.com

PytLab酱：机器学习算法实践-决策树(Decision Tree)zhuanlan.zhihu.com

ID3算法思想：
ID3使用信息增益作为特征选择的度量，使用自顶向下的贪心算法遍历决策树空间。具体的：
 1. 计算数据集合的信息熵，以及各个特征的条件熵。选择信息增益最大的作为本次划分节点。
 2. 删除上一步使用的特征，更新各个分支的数据集和特征集。
 3. 重复1，2步，知道子集包含单一特征，则为分支叶结点。

信息熵越大，意味着信息越是无序。
信息增益越大，那么就是指分完之后的信息熵越小，那也就意味着分完之后的数据趋向于有序，
而越有序的数据，意味着我们能更好地预测数据。

C4.5算法
 C4.5主要是克服ID3使用信息增益进行特征划分对取值数据较多特征有偏好的缺点。
使用信息增益率进行特征划分。

C4.5相比ID3进行的改进有如下4点：
 1. 引入剪枝策略，使用悲观剪枝策略进行后剪枝
 2. 使用信息增益率代替信息增益，作为特征划分标准
 3. 连续特征离散化
   需要处理的样本或样本子集按照连续变量的大小从小到大进行排序
 4. 缺失值处理
   对于具有缺失值的特征，用没有缺失的样本子集所占比重来折算信息增益率，选择划分特征
   选定该划分特征，对于缺失该特征值的样本，将样本以不同的概率划分到不同子节点

CART算法思想, CART树在C4.5基础上进行了如下改进：

 1. CART使用二叉树来代替C4.5的多叉树，提高了生成决策树效率
 2. C4.5只能用于分类，CART树可用于分类和回归
 3. CART 使用 Gini 系数作为变量的不纯度量，减少了大量的对数运算
 4. CART 采用代理测试来估计缺失值，而 C4.5 以不同概率划分到不同节点中
 5. CART 采用“基于代价复杂度剪枝”方法进行剪枝，而 C4.5 采用悲观剪枝方法
 6. ID3 和 C4.5 层级之间只使用一次特征，CART 可多次重复使用特征

决策树 连续变量_决策树 ID3 Gini详细分析

决策树连续变量_决策树 ID3 Gini详细分析