目录
Part I: 基本定义
一般的, 一棵决策树包含一个根节点, 若干个内部节点和若干个叶节点; 叶节点对应于决策结果, 其他每个节点则对应与一个属性测试; 每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集.
Part II: 基本流程
决策树的生成是一个递归过程.
递归终止条件:
1) 当前节点包含的样本全属于同一类, 无需划分;
2) 当前属性集为空, 或所有样本在所有属性上取值相同, 无法划分;
3) 当前节点包含的样本集合为空, 不能划分;
Part III: 如何选择最优划分属性
决策树学习的关键在于如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高.
信息增益(inforamtion gain)
“信息熵”是度量样本集合纯度最常用的一种指标,假定当前样本集合中第类样本所占的比例为 ,则 的信息熵定义为
- 的值越小,则D的纯度越高.
- 的最小值为0.
信息增益(information gain)定义为:
一般而言, 信息增益越大, 意味着使用属性a来进行划分所获得的"纯度提升越大.因此, 我们可用信息增益来进行决策树的划分属性选择. 即在上述流程图中选择.
ID3决策树学习算法就是以信息增益为准则来选择划分属性.
增益率(gain ratio)
为减少对于属性值较多的属性产生的偏好, 采用了增益率来选择最优划分属性. 增益率(gain ratio)定义为:
其中:
称为属性的“固有值” [Quinlan, 1993] ,属性 的可能取值数目越多(即越大),则 的值通常就越大.
存在的问题是:
增益率准则对可