决策树的基本知识
决策树的构建步骤:特征选择,抉择树生成,决策树剪纸
信息熵:信息的不确定程度,不确定性越大,熵越大。
2.决策树生成算法(ID3,C4.5,CART)
1)ID3算法是决策树的一个经典构造算法,使用信息熵和信息增益来构建。(可以是二叉树也可以是多叉树)
优点:构建快,实现简单
缺点:对缺省值敏感,只能对离散特征建模,只需要小规模数据集,需要将全部数据放入内存
单变量特征树:不能对两个特征之间的关系进行建模
2)C4.5算法是ID3算法的一些优化,使用信息增益率取代ID3中的信息增益。在树的构造过程中会使用剪枝进行优化。(可以是二次树和多叉树)
优点:准确率高,实习简单
缺点:需要多次扫描和排序,效率低,单变量决策树,适合小规模,需要将数据全部放入内存中
3)CART算法,使用GINI增益(基尼系数)作为分割属性选择的标准。CART模型只能是二叉树。
效果:CART>C4.5>ID3
ID3,C4.5只能在小规模数据集上使用,都是单变量决策树,可以是二叉树和多叉树。CART是最常用的一种决策树构建算法,只能是二叉树。
三种算法的区别仅仅是对于当前树的评价标准不同。
算法 支持模型 树结构 特征选择 连续值处理 取省值处理 剪枝 特征属性多次使用
ID3 分类 多叉树 信息增益 不支持 不支持 不支持 不支持
C4.5 分类 多叉树 信息增益率 支持 支持 支持 不支持
CART 分类or回归 二叉树 基尼系数|均方差 支持 支持 支持 支持
ID3决策树算法的构建:
https://blog.csdn.net/Leafage_M/article/details/79560128
C4.5决策树算法的构建:*****
CART树构建:
基尼指数表示集合D的不确定性,值越大表示不确定性越大,越小表示样本纯度越高。
G
i
n
i
=
∑
k
=
1
K
p
k
(
1
−
p
k
)
=
1
−
∑
k
=
1
k
p
k
2
Gini=\sum_{k=1}^{K}p_k(1-p_k)=1-\sum_{k=1}^{k}p_{k}^{2}
Gini=∑k=1Kpk(1−pk)=1−∑k=1kpk2
如果是二分类问题则:
G
i
n
i
(
p
)
=
2
p
(
1
−
p
)
Gini(p)=2p(1-p)
Gini(p)=2p(1−p)