目录
5 CART算法(classification and regression tree)
决策树算法可以应用于分类问题与回归问题,李航的书中主要讲解的是分类树,构建决策树分为三个过程,分别是特征选择、决策树生成、决策树剪枝以及CART算法。
1 决策树模型
分类决策树模型是一种描述对实例进行分类的树形结构.决策树由结点(node)和有向边(directed edge)组成结点有两种类型:内部结点(internal node)和叶结点(leaf node)、内部结点表示一个特征或属性,叶结点表示一个类。
决策树可以认为是if-then规则的集合,可以将决策树转化为if-then的规则,最终所有的样本实例都会被决策树所覆盖,在书写决策树代码的过程中就可以用if语句去构建决策树,决策树本质上就是针对数据集的一套分类规则。
假设输入的数据集为D,实例x是n维列向量,y是数据的标注。
,
决策树学习本质上是从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的决策树(即能对训练数据进行正确分类的决策树)可能有多个,也可能一个也没有。我们需要的是一个与训练数据矛盾较小的决策树,同时具有很好的泛化能力。在构建决策树的过程中可以进行特征选择,但是决策树可能会出现过拟合的现象,因此要进行决策树的剪枝。
2 特征选择
2.1 数据引入
从李航书中截取数据集,从该数据集中需要构建一套分类规则使得错误分类最少或者说拟合程度最好,选择不同的特征作为根结点就可以构建出不同的决策模型,如何选择根结点对应决策树的特征选择问题,因此首先要引入信息熵以及信息增益的概念。
2.2 信息熵和信息增益
在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量.设X是一个取有限个值的离散随机变量,其概率分布为:
则随机变量X的熵H(X)定义为:
规定当p=0时,p*logp=0,一般以2或者e作为自然对数的底数。
当变量X服从伯努利分布时,李航书中给出了该分布的熵曲线:
设有随机变量(X,Y),其联合概率分布为 :
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性.