西瓜书 Task4 决策树

1、基本流程

决策树的目的是为了产生一棵泛化能力的决策树

#决策树生成是一个递归过程

导致递归返回→(1)当前结点包含的样本全属于同一类别,无需划分;(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;(3)当前结点包含的样本集合为空,不能划分.


2、划分选择——图4.2第8行

决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高.
#信息熵
“信息熵”(information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为p(k=1,2,..),则D的信息熵定义为:


Ent(D)的值越小,则D的纯度越高.

#信息增益
假定离散属性a有V个可能的取值{a¹,a²,...},若使用a来对样本集D进行划分,则会产生V个分支结点,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重,即样本数越多的分支结点的影响越大,于是可计算出用属性a对样本集D进行划分所获得的“信息增益”(informationgain)

信息增益越大——使用属性a来进行划分所获得的“纯度提升”越大。因此,我们可用信息增益来进行决策树的划分属性选择.

#增益率

信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,“增益率”(gain ratio)来选择最优划分属性.


称为属性a的“固有值”(intrinsic value),属性a的可能取值数目越多(即V越大),则IV(a)的值通常会越大。需注意的是,增益率准则对可取值数目较少的属性有所偏好.

#基尼系数

Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。因此,Gini(D)越小,则数据集D的纯度越高.

3、剪枝处理


剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。
决策树剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(post-pruning)

#预剪枝:在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点

#后剪枝:先从训练集生成一棵完整的决策树然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点

4、连续与缺失值

采用二分法(bi-partition)对连续属性进行处理

#类似4.2

#类似4.2

5、多变量决策树


每个属性视为坐标空间中的一个坐标轴,则d个属性描述的样本就对应了d维空间中的一个数据点,对样本分类——在这个坐标空间中寻找不同类样本之间的分类边界。

决策树所形成的分类边界有一个明显的特点:轴平行(axis-parallel),即它的分类边界由若干个与坐标轴平行的分段组成.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值