《统计学习方法》读书笔记-----决策树:模型概述

0.简介

决策树是一种基本的分类与回归方法。决策树呈树形结构,分类问题的决策树可以认为是if-then规则地集合,也可以认为是定义在特征空间和类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快,学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对于新的数据,利用决策树模型进行分类。决策树学习通常分为3个步骤:特征选择、决策树的生成和决策树的修剪。

1.决策树模型与学习

1.1 决策树模型
决策树是一种描述对实例进行分类的树形结构,如图1所示。

这里写图片描述
图1 决策树模型

决策树由结点和有向边组成,结点有两种类型:内部结点和叶结点。内部结点(椭圆1~4)表示一个特征或属性,叶结点(矩形A~F)表示一个类。
1.2 决策树与if-then规则
决策树可以看做是一个if-then规则地集合。如图2所示,决策树的根节点到叶节点的每一条路径对应着一条规则,内部结点对应着规则的条件,叶节点的类对应着规则地结论。

这里写图片描述
图2 单个规则的构成

决策树的路径或其对应的if-then规则集合具有一个重要性质:互斥而且完备。即每个实例都被一条路径或一条规则覆盖,而且只能被一条路径或规则覆盖。在图1中,每个矩形向上返回到椭圆1,有且只能有一条路径。

1.3 决策树与条件概率分布
决策树还表示给定特征条件下类的条件概率分布。假设输入空间(特征空间)为 X X ,对应的输出空间(类标签)为Y,可以将基于 X X 判断Y的问题看作是求条件概率分布的问题。假设 X X 为特征的随机变量,Y为类的随机变量,那么这个条件概率分布可以表示为 P(Y|X) P ( Y | X ) ,即已知特征空间 X X ,看各个叶节点中哪种类别的概率最大,就将实例强行分配概率最大的那一类上去。

这里写图片描述
图3 决策树对应的条件概率分布

如图3c所示,每一组条件对应一个特征空间的划分,X特征空间为所有划分的集合,假设类空间只有两个取值:正类和负类。图3c中红色条件组合对应着图3a中红色区域的特征空间子集。
如果某个单元c的条件概率满足P(Y=+1|X=c)>0.5,则认为该单元属于正类,集落在该单元的实例都认为是正类。红色区域 P(Y=+1|(x(1)a1,x(2)a2)>0.5 P ( Y = + 1 | ( x ( 1 ) ≤ a 1 , x ( 2 ) ≤ a 2 ) > 0.5 ,因此落入此输入空间子集的实例均为正例。

1.4 决策树的学习
决策树的学习本质上是从训练数据集中归纳出一组分类规则,与训练数据集不相矛盾的决策树可能有多个,也有可能一个也没有。我们需要的是个与训练数据集矛盾较小的决策树,同时具有较好的泛化能力。

从另一个角度看,决策树学习是从训练数据集估计条件概率模型,基于特征空间划分的类的条件概率模型有无穷多个,我们选择的条件概率模型不仅对训练数据有很好的拟合,而且对未知数据也有很好的预测。

决策树学习的损失函数通常是正则化的极大似然函数,决策树的学习策略是以损失函数为目标函数的最小化。从所有可能的决策树中选择最优决策树是NP完全问题,现实中决策树的学习算法通常采用启发式方法,近似求解这一最优化问题,这样得到的决策树是次最优的。

决策树的学习算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。

以上方法生成的决策树可能对训练数据有很好的分类能力,但是可能发生过拟合现象,这时候就需要对生成的模型进行自下而上的剪枝,将树结构变得简单,从而使它具有很好的泛化能力。

可以看出,决策树学习算法包括特征选择、决策树的生成和决策树的剪枝过程。
决策树学习常用的算法有ID3、C4.5和CART。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值