ID3算法
使用信息增益作为属性的选择标准,适用于离散的描述属性,且偏好于可取数目较多的属性。
信息熵计算
其中,pk代表第k类样本在D集合中所占的比重。信息熵越小,表示集合D的纯度越大。
信息增益计算
其中为集合D中某个属性的子集。根据所计算的信息增益,选取信息增益大的属性。
C4.5算法
在ID3算法的基础上,使用信息增益率作为属性的选择标准。该算法既能处理离散的描述属性,也能处理连续的描述属性,并且偏好于可取数目较少的属性。
信息增益率Gainratio计算
根据所计算的信息增益率,选取信息增益率高的属性。
CART算法
通过基尼系数划分属性,可用于回归树或分类树。当终结点为连续变量时,该树为回归树;当终结点为分类变量时,该树为分类树。
基尼系数Giniindex计算
根据所计算的基尼系数,选取基尼系数最小的属性。
决策树算法的优缺点
优点
- 只需很少的数据准备;
- 使用该树预测数据的成本为训练树的数据点的对数;
- 能够处理数字和分类数据,其他分类技术通常专门分析一种类型变量的数据;
- 能够处理多输出问题;
- 使用白盒模型,容易通过布尔逻辑对决策树的结果进行解释;
- 模型具有可靠性,可使用统计测试来验证模型;
- 即使假设受到数据生成的真实模型的干扰,也能很好地执行。
缺点
- 容易过度拟合,可建立过于复杂的树,但不能很好地概括数据。可通过设置叶节点所需的最小样本树或树的最大深度避免;
- 不稳定性,数据中的小变化,将导致生成不同的树;
- 基于启发式算法,不能保证返回全局最优,可通过训练多棵树缓解,其中的特征和样本随机替换采样;
- 若某一类占主导地位,则会建成偏向性树,需要先平衡数据集。