决策树学习笔记(一)
前言
For GBDT:
提升树、GBDT是以分类树或者回归树为基本分类器的提升方法,在看提升树算法的时候我发现对决策树学习的一些细节并不清晰了,于是决定从头再学一遍。之前的理解还是比较粗浅,一直以为决策树比较简单,类似于很多的简单规则一级一级拼凑起来,其实对决策树的条件概率表示、特征选择、决策树生成以及剪枝都没有真正的掌握。真正的理解算法是要能够非常通俗的把算法思想表达出来,《统计》一书上对决策树的介绍非常详细并且易于理解,入门必看。
1.决策树模型
决策树是一种基本的分类与回归方法,决策树模型呈树形结构。在分类问题中,它可以看作是if-then规则的集合,也可以看作是定义在特征空间与类空间上的条件概率分布。主要优点是模型具有可读性,分类速度快。
图中圆和方框分别表示内部节点(表示实例的某一特征或属性)和叶节点(表示一个分类类别)
决策树分类过程:从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点;每个子节点对应着该特征的一个取值。如此递归对实例进行测试并分配,直至达到叶节点,叶节点即表示一个类。
2.决策树模型理解
直观上看决策树是一系列if-then规则的集合,根节点到子节点的每一条路径都是一条规则,子节点就是每一条规则所指向的结果。(见图5.2(c))
将决策树看成是