机器学习——第四章 决策树

决策树原理介绍
决策树(decision tree)是一类常见的机器学习方法,目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树。
划分选择
决策树学习的关键在于,在每个分裂节点处如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的“纯度”越来越高。
信息论基础
信息熵:是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。
在这里插入图片描述
其中pk是D属于类别k的比例,需要注意的是底数为2,原因熵是以二进制位的个数来度量编码长度,同时注意,如果目标属性具有y个可能值,那么熵最大可能为log2(y)。

信息增益:简单的说,一个属性的信息增益就是由于使用这个属性分割样例而导致的期望熵降低(或者说,样本按照某属性划分时造成熵减少的期望,个人结合前面理解,总结为用来衡量给定的属性区分训练样例的能力)。更精确地讲,一个属性a相对样例集合D的信息增益Gain(D,a)被定义为:
在这里插入图片描述
信息增益越大,表示使用特征a来对样本集进行划分所获得的纯度提升越大。
缺点:由于在计算信息增益中倾向于特征值越多的特征进行优先划分,这样假设某个特征值的离散值个数与样本集 DD 个数相同(假设为样本编号),虽然用样本编号对样本进行划分,样本纯度提升最高,但是并不具有泛化能力。

增益率:实际上,信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,C4.5决策树算法不直接使用信息增益,而是使用“增益率”(gain ratio)来选择最优划分属性。信息增益率的计算相关公式:
在这里插入图片描述
在这里插入图片描述
IV(a) 是特征 a 的熵。
增益率对特征值较少的特征有一定偏好,因此 C4.5C4.5 算法选择特征的方法是先从候选特征中选出信息增益高于平均水平的特征,再从这些特征中选择增益率最高的。

基尼指数:基尼指数是经典决策树CART用于分类问题时选择最优特征的指标。假设有K个类,样本点属于第k类的概率为pk,则概率分布的基尼指数定义为:
在这里插入图片描述
在这里插入图片描述

剪枝是决策树对付过拟合的主要手段,分为预剪枝和后剪枝.
1.预剪枝对每个结点在划分前先进行估计,若该结点的划分不能带来决策树泛化性能提升,则停止划分.预剪枝基于"贪心"本质,所以有欠拟合的风险.
2.后剪枝是先生成一棵完整的决策树,然后自底向上对非叶结点考察,若该结点替换为叶结点能带来决策树泛化性能提升,则将子树替换为叶结点.缺点是时间开销大

决策树所形成的分类边界是轴平行的,多变量决策树(斜决策树)的每一个非叶结点都是一个线性分类器,因此可以产生斜的划分边界.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值