决策树学习的本质是从训练数据集中归纳出一组分类规则,这种决策规则有可能一个也没有,也可能有很多个,这时候需要选择一个与数据集矛盾较小的决策树规则,同时又需要很好的泛化效果。
决策树是一个由根到叶的递归过程,在每一个中间结点寻找划分属性,递归重要的是设置停止条件:
- (1)当前结点包含的样本属于同一类别,无需划分;
- (2)当前属性集为空,或是所有样本在所有属性上取值相同无法划分,简单理解就是当分到这一节点时,所有的属性特征都用完了,没有特征可用了,就根据label数量多的给这一节点打标签使其变成叶节点(其实是在用样本出现的后验概率做先验概率);
- (3)当前结点包含的样本集合为空,不能划分。这种情况出现是因为该样本数据缺少这个属性取值,根据父结点的label情况为该结点打标记(其实是在用父结点出现的后验概率做该结点的先验概率)。
决策树的关键——如何找合适的“划分属性”
1 信息增益