文章内容总结源于《周志华-机器学习》
决策树
通常决策树包含一个根结点(开始,包含所有样本)、多个的内部节点、多个叶子结点(最终,决策的结果)。
决策树的基本算法:
(截图来自:周志华-机器学习)
其中,属性集A表示为判定集合。例如,什么颜色?什么形状?
函数TreeGenerate中有三种情况:
1.样本集D同属于一个类别,无需划分 - 标记为叶结点
2.A属性集为空,或者D中样本在A属性判定下取值都相同,无法划分 - 标记为叶结点
3.A中选择最优划分属性a*
具有代表性的决策树有:
- ID3算法 (信息增益)
- C4.5 算法 (增益率)
- Cart 算法 (基尼系数)
如何选择最优划分属性,以ID3为例:
信息熵:
信息增益用于衡量样本集合的纯度。 信息增益越小,纯度越高,样本中相同类别的数量就越大。
信息增益(ID3):
通过信息增益来进行决策树的划分属性选择。信息增益越大意味着使用属性a来进行划分所获得的“纯度提升”越大.
是D的子集, 集合来自于是选定属性 下的分支 。
通过计算每个选定属性的信息增益,得到最合适的属性。
思路:
想要找到最优划分属性,就必须计算出每一个属性的信息增益。计算每一个属性的信息增益时,注意每个属性内是包含不同的分支的。例如,书中事例,西瓜的纹理就有三个分支(清晰、稍糊、模糊)。