本文内容主要以算法思想为主,介绍决策树原理,从决策树迁移到集成学习主要是由于随机森林比较好使,引出了bagging和它的亲戚boosting。有趣的思想包括:决策树的信息熵、随机森林的泛化性能、boosting的改变样本分布与前向分步思想
1.决策树
人类判断的机制:由上及下逐级决策,将大问题化为多个子问题。
决策树机制:选择不同的划分属性,将问题逐步划分建成一棵树状图。
由根结点(原始问题)、内结点(子问题)、叶节点(最终决策)组成,具有处理未见实例的能力,泛化能力强。
1.1 算法步骤
决策树利用递归生成,生成过程包含三种递归返回:
1)当前结点所含样本属于同一类别
2)当前属性集为空或者当前样本在所有属性上相等
3)当前结点所含样本为空
具体的算法实现过程这篇文章讲的很好:决策树分类算法原理分析及代码实现