《统计学习方法》阅读笔记 Ch05 决策树

Ch05 决策树

目录


  • 模型
  • 特征选择
  • 决策树生成
  • 剪枝
  • CART
  • 连续值与缺失值
  • 多变量决策树

模型


决策树的模型觉得很简单。就是从每个特征出发对数据进行划分,叶子节点就是划分出的有相同类的样本集合。中间节点可以认为是划分依据。书中决策树可以理解为if-then规则的集合,并且和条件概率有一定的关系。

特征选择


特征选择或者说特征划分,理解为中间节点应该选择那个特征划分样本集。
特征划分的准则是信息增益或者信息增益比。
信息熵越大,数据越混乱,越不确定,越“不纯”。信息熵的公式为
在这里插入图片描述
条件熵的公式为
在这里插入图片描述
当熵中的概率p由样本中的统计信息得到时,成为经验熵和条件经验熵。

准则1-信息增益

信息增益就是熵减条件熵。公式为
在这里插入图片描述
当使用统计信息计算时,就得到了
在这里插入图片描述
在这里插入图片描述
其中|D|表示整个数据集样本个数,|Ck|表示第k类的样本个数,|Dik|表示在A特征的第i个取值下样本属于k类的个数。由此,信息增益公式g(D,A)计算所得公式就表示样本集在A属性特征划分下的不确定性减少程度。因此在决策树构造时特征节点的选择是信息增益大者优先,因为使用该特征能有效降低不确定性。

准则2-信息增益比

信息增益准则在特征选择时对特征可取数目较多的特征属性较偏好,为减少影响。使用信息增益比,这是特征选择的另一准则。公式为:
在这里插入图片描述
分母是关于属性A的信息熵。成为属性a的固有值。当属性a取值越多,分母会越大,避免了信息增益偏好属性值多的问题。

决策树生成


ID3算法

ID3就是在递归建树的过程中使用信息增益作为特征选择的准则。优先使用增益大的特征进行划分。

C45算法

C4.5算法使用信息增益比作为准则。但是C45不是直接选择信息增益比最大的特征,而是使用一个启发式:先从候选候选划分中找出增益高于平均水平的,再在这些特征中寻找增益比最高的。

剪枝


完整决策树容易产生过拟合,使用剪枝降低模型复杂度。
剪枝可分为“预剪枝”和“后剪枝”,书中仅介绍后剪枝。预剪枝是在依据准则时,使用贪心思想对该特征是否影响精准率或其他效果进行计算,若有负影响则不继续划分直接生成叶节点。
后剪枝是先生成一棵完整的树,再自底向上对非叶节点(子树)进行考察。观察剪枝前后两棵树的损失变化,取损失小的。
书中介绍的损失函数在整体误差项后加入带因子的正则项,可降低复杂度。
后剪枝可以采用动态规划实现。

CART


cart算法全称 classification and regression tree。
cart树是二叉树,算法分为树的生成与剪枝。
生成回归树时使用MSE作为准则,生成分类树时使用Gini系数作为准则。

cart回归树

回归树的生成:在训练数据集所在的输入空间中,递归地将每个区域划分为两个子区域。选择第 j 个变量和它取的值 s 作为切分变量和切分点,并定义两个区域在这里插入图片描述
遍历变量 j,对固定的 j 扫描切分点 s,求解在这里插入图片描述
经过上式就可得到相应特征的切分点。
再根据切分点的两个区域内求平均,决定二叉树两边相应的输出值。在这里插入图片描述
直到满足停止条件。回归树也叫最小二乘回归树。

cart分类树

分类树使用Gini系数
在这里插入图片描述
基于统计信息计算,在A特征下的Gini系数公式为:
在这里插入图片描述
D1、D2表示在A特征的某个取值将样本集划分为两个子集。
Gini(D)表示样本集合D的不确定性,Gini(D,A)表示在A=a的划分下的不确定性,与熵的性质类似。

cart剪枝

剪枝过程使用误差+模型复杂度的损失函数。针对固定正则因子alpha的损失函数,一定能找到最优解的子树。
通过公式可知,当alpha大时,T偏小,模型简单,反之,模型复杂。
Tt 表示以 t 为根结点的子树,|Tt| 是 Tt 的叶结点个数,C(T)为误差函数。可以证明当
在这里插入图片描述
时,Tt 与 t 有相同的损失函数值,且t的结点少,因此 t 比 Tt 更可取,对 Tt 进行剪枝。自下而上地对各内部结点 t 计算1在这里插入图片描述,并令 a=min(g(t)),自上而下地访问内部节点 t,如果有 g(t)=a,进行剪枝,并对 t 以多数表决法决定其类,得到子树 T,如此循环地生成一串子树序列,直到新生成的 T 是由根结点单独构成的树为止。利用交叉验证法在子树序列中选取最优子树。

连续值与缺失值


连续值:简单二分划分。对每个候选划分点计算划分后的信息增益
在这里插入图片描述
取最大信息增益为划分点
缺失值:核心思想为若该样本子集在属性α上的值缺失,则将该样本以不同的权重(即每个分支所含样本比例)划入到所有分支节点中。可参考西瓜书p87.

多变量决策树


决策树在k维特征空间上划分出的分类边界的特点是:轴平行(axis-parallel)
当决策树层数深时,边界就会复杂,若使用斜划分边界,模型将会简化。对应决策树的划分节点不再是单一属性,而是属性的线性组合。多变量决策树的学习过程为每个非叶节点建立合适的线性分类器。

欢迎关注我的个人公众号,记录学习历程
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值