决策树

最新推荐文章于 2021-07-30 16:13:26 发布

@yuqing_wang

最新推荐文章于 2021-07-30 16:13:26 发布

阅读量863

点赞数

分类专栏：统计学习（李航）

本文链接：https://blog.csdn.net/weixin_43199124/article/details/111407853

版权

统计学习（李航）专栏收录该内容

12 篇文章 0 订阅

订阅专栏

决策树一种if-then规则的集合，具有较好的可解读性，一种分类/回归方法

决策树模型与学习

模型定义

构成

节点：
（1）内部节点：特征/属性/条件
（2）叶节点：类
有向边

if-then规则集合

从根节点到叶节点，一条路径构成一条规则
要求：互斥且完备
每一个实例可以也仅可以被一条规则覆盖

决策树与条件概率分布

决策树将空间划分为不相交的单元，每个单元对应一个条件概率分布，每条路径对应一个单元，每个叶节点强行分类到概率较大的那类

决策树学习

给定训练集：
$T=\{(x_1,y_1),\cdots,(x_n,y_n)\}$
x特征向量，y分类

目标
构建决策树模型，正确分类

决策树生成

构建根节点，把所有数据放在根节点
选择最优特征，对数据集进行划分
递归选择特征，按特征将数据集进行分类

决策树剪枝
避免过拟合，提高泛化能力

特征选择

特征选择问题

目的：选择具有分类能力的特征
分类能力：如果用这个特征分类后，分类前后差距不大，则该特征没有分类能力
分类准则：信息增益比，信息增益

熵

熵
随机变量不确定性的度量,熵越大，随机变量的不确定越大
随机变量的熵
$H(P)=H(X)=-\sum_i^np_ilogp_i$
$0\leq H(P)\leq nlogn$
比特/那特

条件熵
$H(Y|X)=\sum_{x_1}H(Y|X=x_i)P(X=x_i)$

经验熵/经验条件熵
如果出现 $0 l o g 0$ 的情况，那么规定 $0 l o g 0 = 0$

信息增益

得知特征 $X$ 的信息，让类 $Y$ 的不确定性减少的程度

定义
特征 $A$ 对数据集 $D$ 的信息增益 $g (D, A)$
$g (D, A) = H (D) - H (D ∣ A)$

一般 $H (Y) - H (Y ∣ X)$ 称为互信息

计算方式
在这里插入图片描述

计算数据集的经验熵
$H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log(\frac{|C_k|}{|D|})$
计算特征A对数据集D的条件经验熵
$H(D｜A)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log(\frac{|D_{ik}|}{|D_i|})$
计算信息增益
$g (D, A) = H (D) - H (D ∣ A)$

信息增益比

信息增益，倾向于选择类别较多的特征，可以用信息增益比进行矫正
$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$
$H_A(D)$ :用 $A$ 对数据集进行划分
$H_A(D)=\sum_{i=1}^n\frac{|D_i|}{|D|}log(\frac{|D_i|}{|D|})$

决策树生成

ID3算法

在决策树各个节点用信息增益准则选择特征，递归构建决策树
输入： 数据集D，特征集A，阈值 $\epsilon$
输出： 决策树T
过程：
在这里插入图片描述

C4.5 算法

用信息增益比作为选择准则
避免ID3对于分枝较多的属性的倾向性
分枝多 $H_AD$ 大

决策树剪枝

降低决策树复杂度，防止过拟合

损失函数
在这里插入图片描述

$C_\alpha(T)=\sum_{i=1}^{|T|}N_t H_t(T)+\alpha|T|$
其中 $H_t(T)=-\sum_{k}\frac{N_{tk}}{N_t}log\frac{N_{tk}}{N_t}$
越大的 $\alpha$ 意味着越简单的树

CART算法

决策树生成：训练数据集
决策树剪枝：验证数据集对已经生成的树进行剪枝

回归树生成

回归树对应着输入空间的划分，将特征空间划分为 $M$ 个单元 $R_1,\cdots,R_M$ ，每个单元有固定输出值 $c_1,\cdots,c_m$
$f(x)=\sum_m c_m I(x\in R_m)$

参数估计：
平方误差最小 $\sum_{x_i\in R_m}(y_i-f(x_i))^2$
因此： $\hat c_m=ave(y_i|x_i\in R_m)$

划分依据：
启发式算法，现寻找切分变量j，再寻找切分点s
$R_1(j,s)=\{x|x^{(j)}\leq s\},R_2(j,s)=\{x|x^{(j)}> s\}$
通过求解目标函数寻找切分变量和切分点：
在这里插入图片描述

分类树生成

基尼指数的定义：
$Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$

给定样本集合
$Gini(D)=1-\sum_{k=1}^K(\frac{|C_K|}{|D|})^2$

在特征A下：
$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$
在这里插入图片描述

CART 剪枝

剪枝前的损失函数：
$C_\alpha(T_t)=C(T_t)+\alpha |T_t|$
剪枝后的损失函数：
$C_\alpha(t)=C(t)+\alpha$
存在 $\alpha$
$C_\alpha(T_t)=C(t)$
$\alpha=g(t)=\frac{c(t)-C(T_t)}{|T_t|-1}$
对 $T_0$ 所有的t计算 $g (t)$ ,选取最小的进行剪枝，且令 $\alpha_1=g(t)$
那么 $T_1$ 为 $[\alpha_1,\alpha_2)$ 的最优子树，不断增加 $\alpha$ 的值，产生新的最优区间
在这里插入图片描述

@yuqing_wang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
决策树

决策树一种if-then规则的集合，具有较好的可解读性，一种分类/回归方法决策树模型与学习模型定义构成节点：（1）内部节点：特征/属性/条件（2）叶节点：类有向边if-then规则集合从根节点到叶节点，一条路径构成一条规则要求：互斥且完备每一个实例可以也仅可以被一条规则覆盖决策树与条件概率分布决策树将空间划分为不相交的单元，每个单元对应一个条件概率分布，每条路径对应一个单元，每个叶节点强行分类到概率较大的那类决策树学习给定训练集：T={(x1,y1),⋯ ,(xn,y
复制链接

扫一扫