统计学习方法-决策树

决策树(decision tree)是一种基本的分类与回归方法,本章主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以是认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。

决策树模型与学习

 1.决策树模型

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶节点(leaf node)。内部结点表示一个特征或属性,叶节点表示一个类。

2.决策树与if-then规则

可以将决策树看成一个if-then规则的集合。将决策树转换成if-then规则的过程是这样的:由决策树的根节点到叶子结点的每一条路径构成一条规则;路径上的内部结点的特征对应着规则的条件,而叶节点对应着规则的结论。决策树的路径或其对应的if-then规则集合具有一个重要的性质:互斥并且完备。

3.决策树与条件概率分布

决策树还表示给定特征条件下类的条件概率分布。这一条件概率分布定义在特征空间的一个划分上。将特征空间划分为互不相交的单元或者区域,并在每一个单元定义一个类的概率分布就构成了一个条件概率分布。

4.决策树学习

决策树学习本质上是从训练集中归纳出一组分类规则。与训练数据集不相矛盾的决策树(即能对训练数据进行分类的决策树)可能有多个,也可能一个也没有。

特征选择

1.特征选择问题

特征选择在于选取对训练数据具有能力的特征。这样可以提高决策树学习效率。

2.信息增益

3.信息增益比

信息增益值的大小是相对于训练数据集而言的,并没有绝对意义。在分类问题困难时,也就是说在训练数据集的经验熵大的时候,信息增益值会偏大。反之,信息增益值会偏小。

 决策树的生成

1.ID3算法

ID3算法核心是在决策树各个节点上应用信息增益准则选择特征,递归的构造决策树。具体方法是:从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益大的作为结点的特征,由特征的不同取值建立子结点;再对子结点递归地使用该方法,构造决策树;直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一个决策树。

2.C4.5的生成算法

C4.5算法与ID3算法相似,C4.5算法对ID3算法进行了改进。C4.5在生成的过程中,用信息增益比起来选择特征。

决策树的剪枝

决策树生成算法递归地产生决策树,直到不能继续下去为止。这样产生的树往往对训练数据的分类很准确,但对未知的测试数据的分类却没有那么准确,即出现过拟合现象。过拟合的原因在于学习时过多的考虑如何提高对训练数据集的正确分类,而构造出过于复杂的决策树。解决这个问题的方法就是考虑数的复杂度,对已生成的决策树进行简化。e

在决策树学习中将已生成的树进行简化的过程称为剪枝。具体地,剪枝从已生成的树上裁掉一些子树或叶结点,并将其根结点或父结点作为新的叶结点,从而简化分类模型。

CART算法

分类与回归树(CART)模型由Breiman等人在1984年提出,是应用广泛的决策树学习方法。CART同样由特征选择、树的生成及剪枝组成即可以用于分类也可以用于回归。

CART算法有以下两步组成:

(1)决策树的生成:基于训练集生成决策树,生成的决策树要尽量的大

(2)决策树的剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。

1.CART生成

决策树的生成就是递归地构造二叉决策树的过程。对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。

2.CART剪枝

CART剪枝算法从“完全生长”的决策树的底端剪去一些子树,使决策树变小(模型变简单),从而能够对未知数据有更准确地预测。CART剪枝算法由两步组成:首先从生成算法成的决策树T0底端开始不断剪枝,直到T0的根结点,形成一个子树序列;然后通过交叉验证法在独立的数据集上对子树序列进行测试,从中选择最优子树。

总结

1.分类决策树表示是基于特征对实例进行分类的树形结构,决策树可以转换成一个if-then规则的集合,也可以看作是定义在特征空间划分上的类的条件概率分布。

2.决策树学习目的在于构造一个与训练数据拟合很好,并且复杂度小的决策树。因为从可能的决策树中直接选取最优决策树是NP完全问题。现实中采用启发式方法学习次优的决策树。

决策树学习算法包括3个部分:特征选择、树的生成和树的剪枝。常用的算法有ID3、C4.5和CART

3.特征选择的目的在于选取对训数据能够分类的特征。特征选择的关键是其准则,常用的准则如下:

(1)样本集合D对特征A的信息增益(ID3)

 其中H(D)是数据集D的熵,H(Di)是数据集Di的熵,H(D|A)是数据集D对特征A的条件熵。Di是D中特征A提取第i个值的样本集,Ck是D中属于第K类的样本子集。n是特征A取值的个数,K是类的个数。

(2)样本集合D对特征A的信息增益比(C4.5)

其中,等式左边为信息增益,H(D)是数据集的熵。 

(3)样本集合D的基尼指数(CART)

特征A条件下集合D的基尼指数:

 

4.决策树的生成。通常使用信息增益最大、信息增益比最大或基尼指数最小作为特征选择的准则。决策树的生成往往通过计算信息增益或者其他指标,从根结点开始,递归地产生决策树。这相当于用信息增益或其他准则不断地选取局部最优的特征,或将训练集分割为能够基本正确分类的子集。

5.决策树的剪枝。由于生成的决策树存在过拟合的问题。需要对它进行剪枝,以简化学到的决策树。决策树的剪枝,往往从已生成的树上剪掉一些叶结点或叶结点以上的子树,并将其父结点或根结点作为新的叶结点,从而简化生成的决策树。

 

 

 来源:《统计学习方法》李航

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值