【笔记】《统计学习方法》(5)决策树

最新推荐文章于 2023-05-15 13:45:23 发布

煎饼证

最新推荐文章于 2023-05-15 13:45:23 发布

阅读量383

点赞数

分类专栏：机器学习读书笔记

本文链接：https://blog.csdn.net/jianbinzheng/article/details/79486749

版权

机器学习同时被 2 个专栏收录

32 篇文章 0 订阅

订阅专栏

读书笔记

24 篇文章 4 订阅

订阅专栏

简书：https://www.jianshu.com/p/eb9d50312de8

第5章决策树

决策树(decision tree)是一种基本的分类与回归方法。可以认为是互斥且完备的if-then规则的集合。优点：模型具有可读性、分类速度快。
通常包括三个步骤：特征选择、决策树的生成、决策树的修剪
思想来源主要有ID3算法、C4.5算法、CART算法
定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型，内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性，叶结点表示一个类。
决策树还表示给定特征条件下类的条件概率分布
决策树学习的损失函数通常为正则化的极大似然函数
决策树构建思想：
- 开始，构建根结点，将所有训练数据都放在根结点
- 选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个当前条件下最好的分类
* 如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去
* 如果还有子集不能基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点
- 如此递归，直至所有训练数据子集被基本正确分类或者没有合适的特征为止
- 最后，每个子集都被分到叶结点上，都有明确的分类
特征选择，在于选取对训练数据集具有分类能力的特征，通常准则为信息增益或信息增益比
熵(entropy)是表示随机变量不确定性的度量。设X是一个取有限个书的离散随机变量，概率分布为
$P (X = x i) = p i, i = 1, 2..., n$ $P(X=x_i)=p_i,\ i=1,2...,n$
则随机变量X的熵定义为
$H (X) = - \sum I = 1 n p i log p i 注： 0 log 0 = 0$ $H(X)=-\sum_{I=1}^n p_i \log p_i\\ 注：0\log0=0$
条件熵(conditional entropy)表示在已知随机变量X的条件下随机变量Y的不确定性。定义为X给定条件下Y的条件概率分布的熵对X的数学期望
$H (Y | X) = \sum I = 1 n p i H (Y | X = x i), p i = P (X = x i), I = 1, 2, . . ., n$ $H(Y|X)=\sum_{I=1}^n p_i H(Y|X=x_i),\ \ p_i=P(X=x_i),\ I=1,2,...,n$
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时，所对应的熵与条件熵分别为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy)
信息增益(information gain)表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差
$g (D, A) = H (D) - H (D | A)$ $g(D,A)=H(D)-H(D|A)$
一般，熵H(Y)和条件熵H(Y|X)之差称为互信息(mutual information)。决策树学习中的信息增益等价于训练数据集中的类与特征的互信息
信息增益大的特征具有更强的分类能力。特征选择方法：对训练数据集D计算每个特征的信息增益，选择信息增益最大的特征
信息增益的算法

输入：训练数据集D和特征A
输出：特征A对训练数据集D的信息增益g(D,A)
(1)计算数据集D的经验熵H(D)
$H (D) = - \sum k = 1 K | C k | | D | log 2 | C k | | D |$ $H(D)=-\sum_{k=1}^{K} \frac{|C_k|}{|D|} \log_2 \frac{|C_k|}{|D|}$
(2)计算特征A对数据集D的经验条件熵H(D|A)
$H (D | A) = \sum i = 1 n | D i | | D | H (D i) = - \sum i = 1 n | D i | | D | \sum k = 1 K | D i k | | D i | log 2 | D i k | | D i |$ $H(D|A)= \sum_{i=1}^{n} \frac{|D_i|}{|D|} H(D_i)= -\sum_{i=1}^{n} \frac{|D_i|}{|D|}\sum_{k=1}^{K} \frac{|D_{ik}|}{|D_i|} \log_2 \frac{|D_{ik}|}{|D_i|}$
(3)计算信息增益
$g (D, A) = H (D) - H (D | A)$ $g(D,A)=H(D)-H(D|A)$
以信息增益作为划分的训练数据集的特征，存在偏向于选择取值较多的特征的问题。可用信息增益比(information gain ratio)校正。
定义：特征A对训练数据集D的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g(D,A)$ 与训练数据集D关于特征A的值的熵 $H_A(D)$ 之比(n为特征A的取值个数)
$g R (D, A) = g ( D , A ) H A ( D ) H A (D) = - \sum i = 1 n | D i | | D | log 2 | D i | | D |$ $g_R(D,A)=\frac{g(D,A)}{H_A(D)}\\ H_A(D)=-\sum_{i=1}^{n} \frac{|D_{i}|}{|D|} \log_2 \frac{|D_{i}|}{|D|}$
ID3算法核心是应用信息增益准则选择特征
ID3算法
输入：训练数据集D，特征集A，阈值 $\varepsilon$
输出：决策树T
(1)若D中所有实例同属于一类 $C_k$ ，则T为单结点树，并将类 $C_k$ 作为该结点的类标记，返回T；
(2)若 $A= \varnothing$ ，则T为单结点树，并将D中所有实例数最大的类 $C_k$ 作为该结点的类标记，返回T
(3)否则，计算A中各特征对的的信息增益，选择信息增益最大的特征 $A_g$
(4)如果 $A_g$ 的信息增益小于与之 $\varepsilon$ ，则设置T为单结点树，并将D中实例数量最大的类 $C_k$ 作为该结点的类标记，返回T
(5)否则，对 $A_g$ 的每一可能值 $a_i$ ，依 $A_g=a_i$ 将D分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记构建子结点，由结点及其子结点构成树T，返回T；
(6)对第i个子结点，以 $D_i$ 为训练集，以 $A-{A_g}$ 为特征集，递归地调用步(1)~(5)，得到子树 $T_i$ ，返回 $T_i$
ID3算法只有树的生成，所以该算法生成的树容易产生过拟合
C4.5算法，标准步骤中与ID3不同的仅将(3)中艺信息增益比选择特征
剪枝(pruning)：在决策树学习中将已生成的树进行简化的过程，通过极小化决策树整体的损失函数来实现
决策树学习的损失函数定义为
$C α (T) = \sum t = 1 | T | N t H t (T) + α | T |$ $C_\alpha(T)=\sum_{t=1}^{|T|} N_t H_t(T) + \alpha |T|$
结点的经验熵
$H t (T) = - \sum k N t k N t log N t k N t$ $H_t(T)=-\sum_{k} \frac{N_{tk}}{N_t} \log \frac{N_{tk}}{N_t}$
左侧记为C(T)，有
$C α (T) = C (T) + α | T |$ $C_\alpha(T)=C(T)+\alpha |T|$
其中，C(T)表示模型对训练数据的预测误差，即模型与训练数据的拟合程度，|T|表示模型的复杂度， $\alpha$ 越大模型越简单
决策树生成只考虑了通过提高信息增益(或信息增益比)对训练数据进行更好的拟合。而决策树剪枝通过优化损失函数还考虑了减小模型复杂度。决策树生成学习局部的模型，决策树剪枝学习整体的模型
树的剪枝算法
输入：生成算法产生整个树T，参数 $\alpha$
输出：修剪后的子树 $T_\alpha$
(1)计算每个结点的经验熵
(2)递归地从树的叶结点向上回缩
设一组叶结点会所到其父结点之前与之后的整体树分别为 $T_B$ 和 $T_A$ ，其对应的损失函数分别是 $C_\alpha(T_B)$ 和 $C_\alpha(T_A)$ ，若 $C_\alpha(T_A) \le C_\alpha(T_B)$ ，则父结点变为新的叶结点
(3)返回(2)知道不能继续位置，得到损失函数最小的子树 $T_\alpha$
分类与回归树(classification and regression tree, CART)模型可用于分类和回归问题，是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。决策树是二叉树
(1)决策树生成：尽量大
(2)决策树剪枝：损失函数最小
CART对回归树用平方误差最小化准则，对分类树用基尼指数最小化准则
最小二乘回归树生成算法P69（不全）
输入：训练数据集D
输出：回归树 $f(x)$
递归将每个区域划分为两个子区域，构建二叉决策树
(1)选择最优切分变量j与切分点s，使均方误差和最小
(2)用选定的(j,s)对划分区域并决定相应输出值
(3)继续对两个子区域调用步骤(1)(2)，直至满足停止条件
(4)将输入空间划分为M个区域，生成决策树
$f (x) = \sum m = 1 M c ̂ m I (x \in R m)$ $f(x)=\sum_{m=1}^{M} \hat{c}_m I(x\in R_m)$
基尼指数表达了集合D的不确定性，基尼指数Gini(D,A)表达了经过A=a分割后的集合D的不确定性。
$G i n i (p) = \sum k = 1 K p k (1 - p k) = 1 - \sum k = 1 K p 2 k$ $Gini(p)=\sum_{k=1}^{K} p_k (1-p_k) = 1- \sum_{k=1}^{K} p_k^2$
对给定样本集合D，基尼指数为
$G i n i (D) = 1 - \sum k = 1 K (| C k | | D |) 2$ $Gini(D)=1-\sum_{k=1}^{K} (\frac{|C_k|}{|D|})^2$
对由特征A取值a分割的两个子集，特征A条件下，集合D的基尼指数为
$G i n i (D, A) = | D 1 | | D | G i n i (D 1) + | D 2 | | D | G i n i (D 2)$ $Gini(D,A)=\frac{|D_1|}{|D|} Gini(D_1) + \frac{|D_2|}{|D|} Gini(D_2)$
CART生成算法P70
输入：训练数据集D，停止条件
输出：CART决策树
(1)计算基尼指数
(2)选择基尼指数最小的特征和切分点
(3)递归(1)(2)，直至满足条件
(4)生成CART树
待考证：基尼指数和熵的效果差不多，但是更快
CART剪枝算法P73
(1)剪枝，形成一个子树序列
(2)交叉验证的到最优子树

煎饼证

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【笔记】《统计学习方法》(5)决策树

简书：https://www.jianshu.com/p/eb9d50312de8第5章决策树决策树(decision tree)是一种基本的分类与回归方法。可以认为是互斥且完备的if-then规则的集合。优点：模型具有可读性、分类速度快。通常包括三个步骤：特征选择、决策树的生成、决策树的修剪思想来源主要有ID3算法、C4.5算法、CART算法定义：分类决策树模型是一...
复制链接

扫一扫