关于经典决策树算法ID3、C4.5及CART树的部分细节梳理,原文见决策树算法。
决策树
决策树可以从两个视角理解。
- If-Then规则的集合
- 定义在特征空间与类空间上的条件概率分布
经典决策树对比
经典决策树有ID3、C4.5以及CART树,其功能和学习过程各有异同,简单对比。
算法 | 分裂标准 | 树类型 | 特征类型 | 缺失 | 剪枝 | 任务 |
---|---|---|---|---|---|---|
ID3 | 信息增益 | 多叉 | 离散 | No | 无剪枝 | 分类 |
C4.5 | 信息增益比 | 多叉 | 离散/连续 | Yes | 有剪枝 | 分类 |
CART | 基尼系数 | 二叉 | 离散/连续 | Yes | 有剪枝 | 分类/回归 |
一些其它差异
- C4.5优化ID3,主要体现在节点分支计算方式,解决ID3偏向取值较多的属性
- 特征使用,多分的ID3和C4.5分类变量只使用一次,CART可多次使用
- CART回归任务,用平方误差最小准则选特征,用样本点均值做回归预测值
C4.5如何处理连续特征
连续值不再有限,不能直接取其可能取值划分,可采用二分法(bi-partition)。给定样本集 D D D和连续属性 a a a,其有 n n n个不同取值,从小到大排序得 { a 1 , a 2 , … , a n } \{a^1, a^2, \dots, a^n\} { a1,a2,…,an},则划分点可以依次选取测试
T a = { a i + a i + 1 2 ∣ 1 ≤ i ≤ n − 1 } T_a=\big\{\frac{a^i + a^{i+1}}{2}|1\le i\le n-1\big\} Ta={ 2ai+a