一、决策树学习的目标
根据给定的训练数据集,归纳出一组分类规则,构建决策树模型,使得模型能对实例进行正确划分。
二、决策树模型
①决策树模型是基于特征,对实例进行分类的树形结构。
②决策树模型的组成结构有:
1. 结点(node)
结点分为内部结点(internal node)和叶结点(leaf node),每一个内部结点对应着一个特征或属性,每一个叶结点对应着一个类
2. 有向边(directed edge)
下图为一个决策树模型,其中圆圈表示内部结点,矩形表示叶结点,有向线段表示有向边:
③决策树模型可看成是:
1. if-then规则集合
决策树的if-then规则集合是由决策树的根结点到叶结点的每一条路径构建一条规则,路径上内部结点的特征是规则的条件,叶结点的类是规则的结论。
决策树的路径互斥并完备,即每个实例对应着有且仅有一条路径或规则
2.条件概率分布
决策树的条件概率分布是特征空间与类空间上的条件概率分布,即在分类时将结点的类分到条件概率大的一类
三、决策树策略
策略:以损失函数为目标函数的最小化
引入正则化的极大似然函数作为损失函数,以便决策树模型不仅能对训练数据有很好的拟合,而且对未知数据有很好的预测
四、决策树算法
1、决策树学习算法的过程
决策树学习算法的过程为:
递归地选择最优特征;
根据特征对训练数据进行分割;
使得对各个子数据集有一个最好的分类
2、决策树的构建
决策树的构建过程为:
①构建根结点
将所有训练数据都放在根结点
②选择一个最优特征进行分类
a.如果分类后的子集能够被基本正确分类,那就构建叶结点,将子集分配到对应叶结点
b.如果还有子集不能被基本正确分类,那就重复步骤②,直至子集满足条件a或者没有合适的特征
构建的决策树模型可能出现对训练数据有很好的分类能力,但对未知测试数据的分类能力并不好的现象,即过拟合现象。当出现过拟合现象时,需对已生成的决策树自下而上进行剪枝,将树变得更简单,从而使其具有更好的泛化能力。
3、决策树的算法过程
决策树的算法过程包括:特征选择、决策树的生成、决策树的剪枝
决策树的生成只考虑局部最优,而决策树的剪枝则考虑全局最优
①特征选择
特征选择的标准是对训练数据具有分类能力,当利用这个特征进行分类的结果与随机分类的结果没有很大差别,我们说这个特征没有分类能力
特征选择的准则是信息增益和信息增益比:
a.信息增益
熵(entropy)是表示随机变量不确定性的度量,为
其中X是一个取有限个值得离散随机变量
经验熵(cond