ID3 算法
其大致步骤为:
1. 初始化特征集合和数据集合;
2. 计算数据集合
信息熵
和所有特征的
条件熵
,选择
信息增益
最大的特征作为当
前决策节点;
3. 更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不
同分支的数据集合);
4. 重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点。
C4.5 算法
C4.5 算法是 Ross 对 ID3 算法的改进。
⚫
用
信息增益率
来选择属性。ID3选择属性用的是子树的信息增益,
而C4.5用的是
信息增益率
。
⚫
在决策树构造过程中进行
剪枝
。
⚫
对
非离散数据
也能处理。
⚫
能够对
不完整数据
进行处理。
CART
⚫
Classification and Regression Tree (CART)
是决策树的一种。
⚫
用
基尼指数
来选择属性(分类),或用
均方差
来选择属性(回归)。
⚫
顾名思义,
CART
算法既可以用于创建分类树,也可以用于创建回归
树,两者在构建的过程中稍有差异。
⚫
如果目标变量是离散的,称为分类树。
⚫
如果目标变量是连续的,称为回归树。