决策树模型就是需要通过样本数据构建一棵树,数中除了叶子节点的每个节点都是一个数据特征的划分点,将待测数据的对应的特征和该节点上的划分特征做对比,然后将待测节点分到该节点的某个子节点上,然后再进行对比,直到叶子节点为止,然后判断待测数据的类型集合。
决策树是一种基本的分类和回归的方法,所以可以分为分类决策树和回归决策树。分类决策树主要适用于标称型数据(如苹果的颜色、形状、口味等特征数据),可以理解为非数值化的,回归树就适用于数值型数据,可以是连续型的数据。
决策树的学习过程是利用样本数据,依据损失函数最小化的原则建立决策树模型,其学习过程分为特征选择、决策树生成、决策树剪枝。特征选择就是依据损失最小化选择当前节点的划分标准是依据那个特征划分的;决策树的生成就是对每个节点选择合适的划分特征,直到结束的过程;决策树的剪枝就是防止过拟合,增加决策树泛化能力的过程。
下面先介绍分类回归树:
- 特征选择
特征选择就是为当前节点选择合适的划分属性,以符合损失最小的原则。通常在分类回归树的特征选择过程用到的是信息增益熵和信息增益比。
信息增益熵:
先从信息熵说起。在信息论与统计中,熵是随机变量不确定的度量。设X为随机变量,其概率分布为P(X=xi) = pi则X对应的信息熵为