统计学习方法笔记——决策树

本文详细介绍了决策树的学习方法,包括决策树模型、特征选择、生成和剪枝过程。讲解了ID3、C4.5和CART算法,特征选择中信息增益、信息增益比和基尼指数的概念,以及决策树防止过拟合的剪枝策略。
摘要由CSDN通过智能技术生成

简介

决策树是一种基本的分类与回归方法,其主要的优点为模型具有可读性,分类速度快。学习时,根据损失函数最小化的原则建立决策树模型。预测时,利用决策树模型进行分类。决策树学习通常有三个步骤特征选择、决策树生成和决策树的裁剪

决策树模型与学习

决策树模型

定义5.1(决策树)分类决策树模型是一种描述对实例进行分类的树形结构。结点有两种类型,内部结点表示一个特征或属性,叶结点表示一个类。
用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点;这时,每一个子结点对应着该特征的一个取值,如此递归下去,直到到达叶子结点。最后将实例分到叶结点的类中。

决策时与if-then规则

将决策树换成if-then规则过程如下:由决策树的根结点大叶结点的每一条路径构建一条规则;路径内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论。其有一个重要性质为:互斥且完备。也就是每一个实例都有路径覆盖且只有一条。

决策树与条件概率分布

决策树还表示给定特征条件下类的条件概率分布。这一条件概率分布定义特征空间的一个划分。将特征空间划分为互不相交的单元区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应于划分中的一个单元。假设X为特征的随机变量,Y为类的随机变量。那这个条件概率分布为 P(Y|X) P ( Y | X ) ,各个叶结点上的条件概率往往偏向某一个类,即属于某一类的概率较大。决策树分类时将该结点的实例分到条件概率大的那一类去。

决策树学习

决策树学习的本质是从训练数据归纳出一组分类规则,选择一个与训练数据矛盾较小的决策树,同时具有很好的泛化能力。使用损失函数来选择,损失函数通常是正则化的极大似然函数。学习的策略是以损失函数为目标函数的最小化。最优问题是NP问题,所以求解次最优解。

决策树学习的算法通常是递归选择最优特征,并根据该特征对训练数据进行分割。这一过程产生的决策树可能产生过拟合,需要自下而上进行剪枝。具体就是去掉过于细分的叶结点,使其退回父结点,然后将父结点或更高结点改为新的叶结点。

决策树的生成过程对应于模型的局部选择,只考虑局部最优。剪枝对应于模型的全局选择,考虑全局最优。常用的学习算法为ID3、C4.5与CART。

特征选择

特征选择问题

特征选择在于选取对数据有分类能力的特征。通常特征选择的准则是信息增益或信息增益比。
直观上说,如果一个特征具有更好的分类能力,或者说按照这个特征将训练数据集分割成子集,使得各个子集在当前条件下有最好的分类,那么就应该选择这个特征。信息增益能很好的表示这个准则。

信息增益

熵(entropy)是表示随机变量不确定性的度量。设X是一个取有限个值得离散随机变量,其概率分布为:

P(X=xi)=pi i=1,2,...,n P ( X = x i ) = p i ,   i = 1 , 2 , . . . , n

则随机变量X的熵定义为:
H(X)=i=1npilog pi(5.1) (5.1) H ( X ) = − ∑ i = 1 n p i l o g   p i

在式(5.1)中,若 pi=0 p i = 0 ,则定义 0log 0=0 0 l o g   0 = 0 。通常对数以2为底或者以e为底(自然对数),此时熵的单位分别称作比特(bit)或纳特(nat)。由定义可知,熵只依赖于X的概率分布,与X的取址无关,所以X的熵也可记作 H(p) H ( p )
H(p)=i=1npilog pi(5.2) (5.2) H ( p ) = − ∑ i = 1 n p i l o g   p i

熵越大,随机变量的不确定性就却大,从定义可以验证:
0H(p)log n(5.3) (5.3) 0 ≤ H ( p ) ≤ l o g   n

当随机变量只取两个值,例如0,1时,熵的变化曲线如正弦图。当p=0或p=1时,H(p)=0,随机变量完全没有不确定性,当p=0.5时,熵取值最大,随机变量不确定性最大。
条件熵 H(Y|X) H ( Y | X ) 表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵 H(Y|X) H ( Y | X ) ,定义为X给定条件下Y的条件概率分布的熵对X的数学期望:
H(Y|X)=i=1npiH(Y|X=xi)(5.5) (5.5) H ( Y | X ) = ∑ i = 1 n p i H ( Y | X = x i )

当熵和条件熵中的概率由数据估计(如极大似然估计)得到时,对应的熵与条件熵分别称为经验熵经验条件熵
信息增益(information gain)表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

定义5.2(信息增益)特征A对训练数据集D的信息增益 g(D,A) g ( D , A ) ,定义为集合D的经验熵 H(D) H ( D ) 与特征A给定条件下D的经验条件熵 H(D|A) H ( D | A ) 之差,即

g(D,A)=H(D)H(D|A)(5.6) (5.6) g ( D , A ) = H ( D ) − H ( D | A )

一般的,熵与条件熵之差称为 互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

根据信息增益准则的特征选择方法是:对训练数据集D,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。

设训练数据集为D, |D| | D | 表示其样本容量,即样本个数,设有K个类 Ck,k=1,2,...,K C k , k = 1 , 2 , . . . , K |Ck| | C k | 为属于类 Ck C k 的样本个数。设特征A有n个不同的取值,根据特征A的取值将D划分为n个子集 D1,D2...,Dn D 1 , D 2 . . . , D n |Di| | D i | Di D i 的样本个数,记子集 Di D i 中属于类 Ck C k 的样本的集合为 Dik D i k ,即 Dik=DiC

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值